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Communication Sciences Laboratory, Ann Arbor, Michigan 


The Measurement of Speech Power* 


By Gorpvon E. PETERson and Norris P. McKinney 


Speech power measurement has been an essential procedure in 
the development of electrical communication systems. However, the 
measurement of speech power and other closely related functions of 
the acoustical speech wave for the purpose of lingu‘stic analysis has 
until recently received relatively little attention. Speech power, 
loudness, and phonetic stress are often considered to be closely 
related or even synonymous. Actually, however, an understanding 
of the relation between speech power as a function of time and 
linguistic judgments of stress is an essential problem in experimental 
linguistics. By “linguistic judgments” we refer to the responses of 
observers when they are reacting to speech as a form of communi- 
cation rather than as a sequence of abstract sounds. 

There is an extensive literature on the relationship of the loud- 
ness of various types of elementary acoustical signals to the measure- 
ment of their powers. These signals include single and multiple pure 
tones, frequency bands of white Gaussian noise, etc. It is not at all 
clear, however, that the results of such studies on simple acoustical 
signals can be extended to predict the “loudness” with which speech 
is perceived. Although little is known about the relationships among 
speech power, loudness, and stress, it is clear that stress perception 
is to some extent based upon speech power®. Stress judgments are 
also affected by the fundamental frequency of voiced sounds, du- 
ration, vowel quality, and voice quality *®. 

Obviously, then, no simple power measurement on the acousti- 
cal waveform will specify linguistic judgments concerning speech. 
Because the relationship of speech power to stress is complicated, 


* This research was supported by the Office of Scientific Research of the United 
States Air Force under contract AF 49(638)—492. 
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and because there are so many other factors which also affect the 
perception of stress, it is plausible that some measure of the power 
involved in the production of speech may be more closely related to 
judgments of linguistic stress than are measurements of acoustical 
speech power. Speech production power may be considered the 
product of the pressure and volume velocity of the air entering or 
being emitted from the vocal mechanism during speech. ‘The extent 
to which measures of speech production power will correlate with 
listener judgments of linguistic stress, however, is as yet unknown. 

In many applications only the acoustical signal is available and 
physiological measures are impractical. Automatic speech recogni- 
tion, for example, is an instance in which stress and other linguistic 
interpretations must be based primarily upon acoustical data. It 
does not seem unreasonable to attempt to make such interpretations, 
since obviously they can be made by a listener without reference to 
physiological observations. 

The above considerations indicate the need in speech research 
for circuitry suitable for the measurement of speech power. In 
general, an instrument for the measurement of acoustical speech 
power or of some closely related function should be sensitive to 
changes in the amplitude of a given input waveform, and should be 
relatively insensitive to changes in the frequency distribution of the 
power. It should present relevant information and should exclude 
extraneous components from the output. The remainder of this 
paper is concerned with these and other design considerations of a 
circuit for the measurement of speech power for linguistic studies. 
Fant has previously described a similar circuit which he calls an 
“intensity meter” (* pp. 334-339). 

Let p(t) symbolize the electrical representation (current or 
voltage) of the acoustic pressure wave of the speech which is the 
input to a speech power measuring circuit. The first consideration 
is whether a weighting of the spectrum should be performed on the 
input wave. Such a weighting would be performed by a circuit 
represented by the block at the left in figure 1. The output of the 


circuit may be represented by p’(t). 


To 
GRAPHICAL 
OISPLAY 


SPEECH 
SIGNAL | WEIGHTING 
7 RECTIFIER FILTER 
CIRCUIT 


Fig. 1. Block diagram of a circuit for the measurement of speech power. 
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If such a weighting is to be performed, it would seem most 
reasonable to base it on the well known equal-loudness contours of 
audition. Since these contours vary with both frequency and in- 
tensity level, the input-output characteristic of the corresponding 
weighting circuit must vary as a function of both the frequency and 
the level of the individual spectral components. A device which 
could perform such an operation would, of course, be exceedingly 
complicated. There are many reasons, however, to question whether 
the use of any such weighting is indicated at the present time, or 
would be of any particular assistance in deriving measures related 
to judgments of linguistic stress. As indicated above, it is not known 
that the results of tests with elementary acoustic signals are applicable 
to the interpretation of speech. Also, at the levels normally of interest 
in speech and throughout the frequency range involving maximum 
contribution to speech intelligibility, the equal-loudness contours 
are relatively flat and have approximately equal spacings. In this 
paper and in the circuitry to be described, such weighting is con- 
sidered impractical and possibly irrelevant; hence p’(t) is equal to 
the input signal, p(t). 

If a constant pattern of acoustical radiation is assumed, power 
and intensity measures have a direct correspondence. The term 
power will be employed throughout the present paper as a measure 
of energy per unit time. Electrical power measurements are obtained 
from the square of the voltage or current. If p’(t) is the instantane- 
ous voltage, then [p’(t)]? is proportional to the instantaneous power. 
This operation is normally accomplished by taking the absolute 
value of the linear waveform, and by squaring the result. It is per- 
formed by the rectifier circuit, represented by the second block in 
figure 1. The output is a nonlinear function indicated by a(t). 

Most rectifier elements have an output a(t) approximately 
proportional to the absolute-value function |p’ (t)| and most of the 
remaining ones have an output approximately proportional to the 
square function [p’ (t)]?. There seems to be little reason to consider 
other rectifier characteristics for application to speech power mea- 
surement. The major design problems associated with the rectifier, 
then, are to determine for both the square and absolute-value 
functions the extent to which each of these mathematical ideals can 
be achieved, the relative difficulty of achieving an approximation to 
the ideal, and the relative value of doing so. On the one hand, since 
the definition of power requires the square of the acoustic pressure 
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function, the use of a poor approximation to the ideal square function 
would reduce the accuracy of the system for power measurement. 
On the other hand, a “‘linear rectifier’ (i.e. one which approximates 
the absolute-value function) may easily be made to approximate 
the ideal over a much wider range of input voltage levels than can a 
“square-law rectifier’. Thus the difference observed between a 
linear rectifier output and a square-law rectifier output when a 
representative sample of speech is applied at the input merits con- 
sideration. 

While the response of the human to power fluctuations in such 
complex signals as speech has not been well defined, it is clear that a 
speaker’s control of amplitude variations or a listener’s interpretation 
of them is very much slower than the rates of variation present in the 
instantaneous output of the rectifier. Expressed differently, the in- 
formation rate associated with the rectifier output, which is almost 
as great as that associated with p(t), is many times the information 
rate which the human is capable of controlling or perceiving. From 
the experimental view it is therefore appropriate that the psycho- 
physicist or the experimental linguist seek a limited number of 
independent amplitude measures within an utterance which he may 
relate to listener judgments about those utterances. Thus a slowly 
varying function d(t) is desired, and from this function values which 
appear most relevant to the interpretation of the speech signal may 
be selected. The third block of figure 1 represents the filter circuit 
which is required for smoothing the rapidly fluctuating output from 
the rectifier. The output of the filter circuit, a(t) is an averaged or 
filtered function which the circuit derives from its input a(t). 

The filter, then, averages the rapid fluctuations of the rectifier 
output over a short time interval and presents as its output the 
slowly varying a(t) for interpretation. The problem associated with 
this section of the speech power circuit is, of course, the specification 
of the filter function f(z). This includes the specification of the man- 
ner in which the filter is to respond and the specification of the rate 
of the filter response to rapid changes at the input. 

Finally, since the range of values of a(t) which may be signifi- 
cant to the psychophysicist or experimental linguist is very large, it 
may be desirable to compress the representation of some of the larger 
input signal levels into a smaller portion of the overall range of the 
output than occurs when d(t) is presented linearly. Such a com- 
pression makes it possible to observe the lower intensity level vari- 
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ations more accurately. These output level adjustments are accom- 
plished by a compressor represented by the right-hand unit shown 
in figure 1. The output of this unit might be a logarithmic function 
of its input, for example, in which case the output could be cali- 
brated linearly in decibel units. 

The following sections of the paper will review in sequence 
some considerations involved in the design of a rectifier, a filter, and 
a compressor for the measurement of speech power. 


Rectification 


The optimum rectifier characteristic for our purposes is that 
which causes the smoothed function a(t) to correspond most nearly 
to the perceived stress of the speech sound represented by the recti- 
fier output. Present knowledge of the relationships between per- 
ceptual categories of speech and measures of the signal p(t) is in- 
sufficient to dictate the most appropriate rectifier characteristic. It 
is interesting to note that Fletcher*, with only a brief word of justifi- 
cation, devotes a chapter to a discussion of acoustical speech powers. 
Altogether he defines six different measures of power for describing 
speech sounds (4, pp. 68-69). 

The two candidate rectifier characteristics, the square and the 
absolute-value, both have the advantage of being elementary func- 
tions. The square function is at every instant proportional to the 
instantaneous power; its average is proportional to the average 
power. Average power is the summation of the powers of the spectral 
components whose periods are short compared to the averaging 
time; average power does not change when only the phase relation- 
ships of the components of the wave are changed. Average power 
measures are thus relatively insensitive to phase shifts of the spectral 
components with respect to each other, and this insensitivity to 
phase is true also, to a first approximation, of the auditory perception 
of sound (2°, pp. 1024-1026). 

The theoretical advantages of the square function, however, are 
accompanied by considerable practical difficulty in designing cir- 
cuitry to operate according to a square-law characteristic. No single 
circuit element is to be found which combines the needed speed of 
response and dynamic range. Very good approximations to a square- 
law response may be obtained over a limited range by means of a 
diode function generator, such as is found in the Ballantine Model 
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320 True Root-Mean-Square Voltmeter. We have employed this 
instrument as a square-law circuit in an intensity meter such as 1s 
depicted in figure 1. Since the range of measurement is restricted, 
however, the power function of continuous speech with a diversity 
of levels cannot be recorded in a single data analysis. 

As indicated previously, “linear rectification”, which forms a 
signal proportional to the absolute value of the input speech wave, 
is much easier to achieve instrumentally than is square-law rectifi- 
cation. Rectifier circuits employing ordinary semiconductor diodes 
can be designed to approximate closely the absolute-value function 
over a 75 decibel dynamic range of the input. This is a considerably 
greater range than can be obtained with square-law rectification. 
A second consideration is that the output amplitude of the linear 
rectifier covers the same decibel range as the input, while the output 
amplitude of the square-law rectifier covers twice the decibel range 
of the input. This consideration is relevant because the range of 
nonlinear circuit elements eligible for use in the compression circuit, 
whose input is the rectifier output, is rather limited. 

The average of the output of a linear rectifier, however, varies 
with changes in the phase of spectral components with respect to 
each other, even when the amplitudes of the components remain 
constant. This is generally in contrast with both human perception 
of the loudness of elementary acoustic signals, and with the output 
of the ideal square-law rectifier. 

In order to examine quantitatively the error introduced by 
using a linear rectifier rather than a square-law rectifier, an experi- 
mental comparison was made between the output ofa circuit employ- 
ing linear rectification and the output of a similar circuit employing 
square-law rectification, with identical inputs to both. The differ- 
ences occurring between the outputs of the two systems were 
measured and tabulated. 

A block diagram of the equipment used for the experimental 
comparison is shown in figure 2. Since the analyses were also needed 
for another experiment’, the speech data input to the two systems 
were Serbian words in sentence frames uttered by a male speaker 
DK. They were tape-recorded on an Ampex recorder in a sound 
treated room. The utterances were then reproduced to both inputs 
of the two rectification systems. In the linear channel, the signal 
was amplified and fed to a full-wave semiconductor diode rectifier 
system. ‘The rectified waveform was first smoothed by a 76 cps 
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ABSOLUTE — VALUE CHANNEL 
LINEAR S.T.L. 
AMPLIFIER LOGARITHMIC 
RECTIFIER FILTER COMPRESSOR 
SQUARE-LAW CHANNEL 
BALLANTINE R-C 
R-M-S METER: FILTER 
Fig. 2. Equipment used for the experimental comparison of square-law and absolute- 
value rectification of speech signals. 
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low-pass filter (see next section) and then compressed to a loga- 
rithmic scale (as described later in the section on compression). In 
the square-law channel, the signal from the tape recorder was 
applied to the input of the True Root-Mean-Square Voltmeter, the 
filter capacitor of which had been removed from the circuit. The 
output current of the meter, which is proportional to the square of 
the instantaneous input voltage, was smoothed by a low-pass, single 
time-constant, resistance-capacitance filter. The outputs of the filters 
of the two channels were applied to the inputs of the two channels 
of a Sanborn two-channel hot-wire recording oscillograph. Although 
the filters in the two channels were not identical, they were both 
low-pass filters having their cutoff frequencies high enough so that 
the recording oscillograph response dominated the low-frequency 
response. A sine-wave signal input was varied in one decibel steps 
to calibrate both channels and the oscillograph simultaneously. The 
R-M-S channel was limited to a ten decibel range at a single time, 
but the range was changed for different parts of the recording. 

At various points along the time axis, the value of the ordinate 
was read from each of the two recording oscillograph traces. Usually 
on such sounds as vowels the smoothed power was read where a 
maximum occurred. In other cases the value was read at a minimum 
or at some other identifiable point. These raw data were converted 
to levels in decibel units by means of a curve based on the oscillo- 
grams obtained with the calibrating signal as input to the systems. 

Let Rjx be the level indicated by the square-law channel and 
Ljx be the level indicated by the linear rectifier channel for the kt? 
token of sound type j. The difference (in decibels) 


Djx = Rjx-Ljx 


between the levels indicated by the outputs of the two data channels 
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was calculated for each pair of observations, Rjx and Lj,. All sounds 
measured were grouped into the following approximate sound types: 
[i, e, a, 0, u, 9, C]; [a] represents the central vowel and includes some 
data from consonant-vowel and vowel-consonant transitions; [CG] 
represents all consonants measured, which were grouped together 
because the data taken were not statistically significant for the 
individual consonants. 
The mean difference 


Or 
k 


nj 


was calculated for each sound type, where n; is the number of tokens 
measured of sound type j. The 95% confidence interval was also 
calculated for each mean based on the assumption of a normal 
distribution of the difference Djx for each sound type about the 
sample mean S;. A chi-squared test of this assumption yields 7? = 
10.9 with 12 degrees of freedom. The sample standard deviation of 
Dj was also calculated for each sound type j and is shown in figure 3, 
together with the sample means and their confidence intervals. 

The principal conclusions which may be drawn from the limited 
data just reviewed are that if the square-law rectifier is taken as the 
ideal, then 1. the error in the speech power measurement made by 
means of a linear rectifier will seldom exceed two decibels, and 2. 
the error will average in the order of one decibel and will always be 
positive. In view of the limitations of the human to distinguish sound 
level differences, even under controlled conditions, it appears that 
linear rectification or some closely related function will provide a 
satisfactory measurement of speech power for many purposes of 
linguistic analysis. Where desired, a square-law device appears 
practical for the measurement of ranges narrower than the total 
involved in speech. 


Filtering 


A graphical representation of the original speech signal p (t) 
or of an unsmoothed function of that signal, e.g. a(t), is usually of 
little use to the experimental linguist. Although the information he 
desires is contained in such a representation, it is in such a com- 
plicated form that it is essentially unavailable to him. The function 
of any speech parameter extraction device (e.g. a speech power 
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DECIBELS 


SOUND TYPE 


Fig. 3. The sample mean (horizontal bar), standard deviation (dashed line), and 95% 
confidence interval for the mean (solid line) for the difference between square-law and 
absolute-value measurements on a speech sample. 


circuit) is to form from the speech wave a signal which has a highly 
reduced information rate, but which retains the desired speech para- 
meter measure (e.g. speech power). The principal information re- 
ducing component of such a parameter extraction device is ordinari- 
ly a filter which has a bandwith much less than that of the original 
speech wave. A major filter design problem is the selection of the 
filter bandwith. As the bandwidth is increased the linguist is in- 
creasingly assured of having all of the relevant information available 
to him, but he also has an increasing number of decisions to make in 


interpreting the data. 
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A second filter design problem is the compromise that must be 
made between the time domain response and the frequency domain 
response. The frequency-domain and time-domain considerations 
are closely related to the desire to make the output trace of the 
system correspond as closely as possible to auditory judgments of the 
acoustic signal}. Our present knowledge of the response of the 
auditory system to acoustic inputs, and to speech inputs in particular 
is so incomplete, however, that we must depend considerably upon 
generally accepted criteria of good filter design. 

The process of filtering the instantaneous speech power a(t) to 
obtain the average speech power a(t) may be described by the 
convolution integral equation 


a(t) =f, a(u) f(t-u)du 


where u is the time variable of integration, f(u) is the filter time- 


Q(u) f (t,-u) 


Gy) = [cry tt,-u)du f-------------=> 


; 

' 

H 

° t 
TIME —> ; 


Fig. 4. Filtering as described by the convolution integral. a) waveform to be filtered; 

b) impulse-response of the filter; c) inverted impulse-response; d) inverted PR: 

response with its leading edge advanced to time t = tj 3 €) product of the waveforms of 

(a) and (d); f) the point of data obtained by integrating the product waveform of (e) 
and the integral curve of which the point is a member. 
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response to a unit impulse input (i.e. impulse-response), and the 
input a(u) is zero until time t = 0. One may consider the action 
of the filter as the application of a weighting function f(—u) which 
moves along the time axis with its leading edge at time t, as por- 
trayed in figure 4. 

A considerable proportion of speech sounds are voiced, and 
most of the resultant sound pressure waveforms may be assumed to 
be approximately periodic over intervals of two or three times the 
fundamental period of the speech wave. This quasi-periodicity 
makes it desirable for an ordinary filter in this application to have 
an integrating time of several periods to avoid “ripple’’ in a(t). On 


=Ke— 2 2 i Sees eel 
TIME (T SECONDS) FREQUENCY (I/T CPS) 


AMPLITUDES ————— 


= —Vve v2 
TIME (I/F SECONDS) FREQUENCY (F CPS) 


-v2 


TIME W8a7K SECONDS) FREQUENCY (INV68wK CPS) 


Fig. 5. Time-response (impulse-response) and frequency-response of a) an ideal rec- 
tangular time-response filter, b) an ideal rectangular frequency-response filter, and c) 
an ideal Gaussian filter. 
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the other hand, some instances of apparent linguisticly significant 
changes in the power level of the speech waveform have been ob- 
served within a time interval only three or four voice periods in 
length. A long integrating time would obscure such changes. 

These two considerations taken together make it seem desirable 
to use the uncommon rectangular time-response filter function f(u) 
having an integrating time T equal to exactly one or two funda- 
mental voice periods. The rectangular time-response of such a filter 
and the corresponding frequency-response are shown in figure 5a. 
The integration might be discrete in time, a new output occurring 
every complete cycle or two of the speech wave. Such a measure 
could be implemented by an electronic gate. If the integration of the 
gate output is made over single successive voice periods of duration 
Tn, then: 


A continuous rectangular filter could be implemented by a delay 
line. If T represents a continuous measure of the voice period, the 
resulting average speech power function would be: 


Serious problems arise, however, in the design of electronic 
instrumentation for measuring this function 4@r(t) because of the 
large dynamic range, both in the level of a(u) and in the funda- 
mental frequency of p(t). In addition, division or multiplication 
must be accomplished over the range of the fundamental voice 
periods encountered. 

Furthermore, the instrumentation of the function &r(t) re- 
quires a signal proportional to +, i.e. proportional to the funda- 
mental frequency. Despite the longstanding interest in a circuit 
whose output is proportional to voice fundamental, none is as yet 
available that is sufficiently reliable for such an application. An 
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added complication is that switching circuits are necessary in such 
a filter. During the course of this study an estimate was obtained of 
the order of magnitude of the maximum error in a(t) due to inte- 
grating over a time interval longer than the fundamental period. 
‘This maximum error was found to be about 3 decibels for an ex- 
ample of [a] produced with good phonation. The error is consider- 
ably increased in the case of more impulsive waveforms, such as that 
of a laryngealized [a?]. 

In the frequency domain, one idealization of the filter frequency- 
response is that it should be constant from zero cycles-per-second 
up to some frequency just below the lowest voice fundamental fre- 
quency encountered. Such a frequency-response is said to be rec- 
tangular and is portrayed in figure 5b, together with the associated 
time-response. This filter would pass all the significant fluctuations 
in the speech power level and would exclude from its output, a(t), 
the “ripple” components which interfere with the interpretation of 
a(t). Parameter digitalization for the purpose of automatic speech 
recognition may place considerable restriction on the allowable 
ripple in the filter output. 

The time response to certain impulsive waveforms, however, 
such as those associated with plosive consonants and the sharp front 
of the onset of voicing, must not be badly distorted. Such distortion 
might easily mask or destroy linguisticly significant information. 
Simple time delay between the input and the output is not trouble- 
some, but the approximate waveshape of the envelope should be 
preserved. This requires that all components passed by the filter be 
delayed by approximately the same amount of time. There should 
be little or no ringing of the filter. It is on the basis of such time 
domain criteria that approximations to the rectangular frequency 
response filter are disqualified. 

Klapper and Harris’? have shown that a filter having a Gaussian 
response is the optimum compromise between certain restrictions 
in the time and frequency domains. Both the impulse-response and 
the frequency-response of such a filter are Gaussian in shape, as is 
shown in figure 5c. The ideal Gaussian filter is not physically realiz- 
able, but Klapper and Harris have shown how it may be approximated 
to any desired accuracy. They have given data on a filter they 
constructed having five stages, with two pairs of poles in each stage 
or ten pole pairs altogether. 

A criterion which measures the combined abilities of a filter to 
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respond quickly to changes in the input and to eliminate ripple 
components from its output is the product of its bandwidth and its 
integrating time or rise-time*. For the Gaussian filter described by 


Klapper and Harris the bandwidth-integrating time product is 
BW 3 t, ="543 


The frequency-response drops off with a large negative slope ap- 
proaching -60 db per octave at the higher frequencies, but it has a 
rather gradual “knee” as shown in figure 6. The filter’s time re- 
sponse to an impulse function input is shown in figure 7. 
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Fig. 6. Frequency-response and phase error-response curves for Gaussian filters and the 
S.T.L. filter. 


Fant? has described a filter (S.T.L. filter) derived by Voss?2 
which is used at the Speech Transmission Laboratory in Stockholm 


* The bandwidth, BW, of a low-pass filter is defined as the frequency at which the 
amplitude response drops to 3 db below its low-frequency asymptote. The integrating 
time, ti, is defined as the amount of time required for the output response to a step 
function input to rise from 0.1 of its final value to 0.9 of its final value. 
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Fig. 7. Filter impulse-responses for the S.T.L. filter (dashed line) and the 5-stage 
approximation to the Gaussian ideal filter. 


and which is considerably simpler than any of the filters mentioned 
above. It is a symmetrical pi-network that has been phase-compen- 
sated to provide a good transient response. The performance of the 
S.T.L. filter compares well with that of the Gaussian filter. Its 
complex transfer function has three poles, two of which are a nearly 
critically damped complex conjugate pair. Its bandwidth-integrat- 
ing time product is 
BW hake 


nearly the same as for the Gaussian filter. 

Another criterion mentioned by Klapper and Harris (although 
not calculated in their paper) is that of phase-response linearity. 
Distortion of transients is minimized by having the phase shift as 
nearly proportional to frequency as possible. The criterion they 
mention is that the phase-response linearity should extend over 
more than 90 percent of the area under the frequency-response 
curve. The phase-response of the Gaussian approximation filter has 
departed 13 degrees from a linear response at the 90 percent point, 
while that of the S.T.L. filter has departed 48 degrees (figure 6). 
This means that transient speech parameter wave-shapes will be 
somewhat less distorted by the Gaussian filter. 

The frequency-response for the S.T.L. filter does not have such 
a large negative slope at the higher frequencies, but in the neighbor- 
hood of the cutoff frequency the two filters are similar. Their fre- 
quency-responses do not depart more than | 4% db from each other 
until beyond two and one-half times their cutoff frequency, where 
they are down more than 20 decibels from their low-frequency 
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responses (figure 6). That the two filters are very similar may also 
be seen by a comparison of their impulse-responses, given in figure 7. 
Because of its approximation to a Gaussian ideal filter and because 
of its simplicity, the S.T.L. filter was chosen for speech power 
measurements at the Communication Sciences Laboratory. 

The cutoff frequency for the filter should be a compromise 
value which will allow the ripple components to be sufficiently at- 
tenuated, and which will still preserve the amplitude and waveform 
of significant transients. In the speech power circuit constructed, 
several cutoff frequencies are available, one of which is selected 
for each data run. If a system is to have only one bandwidth and is 
to be used in general applications, a good compromise bandwidth 
is about 50 cps. This is somewhat lower than the lowest fundamental 
frequency encountered in speech with non-laryngealized phonation, 
but is high enough to keep the integrating time small and thus allow 
significant transients to pass. 


Compression 


Compression of the signal output from the filter is desirable for 
at least two essential reasons: 1. Stevens has found that for abstract 
sounds log L = 0.6 log d-K, where L is estimated loudness and K is 
a constant™, and 2. optimal use is desired of the range of the 
oscillograph or other display device to which the speech power 
circuit output is applied. Thus compression according to a loga- 


rithmic function appears reasonable. The compressed function may 
be defined as: 


a’ (t) = K, log a(t) +°K,, 


where K, and K, are constants. This function also describes the 
current-voltage relationship of a semiconductor diode over a con- 
siderable portion of its operating range. The circuit of a compressor 
utilizing the logarithmic current-voltage characteristic of a diode 
would consist of a diode driven by a source current proportional to 
the filter output. The diode voltage is applied to an amplifier with a 
high input impedance, to provide the output of the speech power 
circuit. Diodes are available with a useable logarithmic range of 
over 100 db, and the driving and isolation amplifiers needed in 
connection with their use are entirely feasible. Thus the compressor 
design is a relatively minor problem. 
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A Note on Interpretation 


According to House*, there may be considerable variations in 
speech power output as vowel quality is held constant and the 
fundamental frequency of the voice is changed. This effect was 
observed in the use of the above described speech power circuit. In 
a study to be reported later by Ladefoged, a few words were spoken 
with a long falling pitch. The power level oscillogram was observed 
in some cases to have one to four rather prominent peaks, although 
the words were phonated evenly. It was found that these peaks 
occurred at just the times at which the harmonic frequencies passed 
through formant center frequencies. This correlation may be seen in 
figure 8 by comparing the oscillograms shown there with the two 
narrow band spectrograms for the same sounds. The sounds 
represented are vowel sounds produced with subjectively constant 
effort and vowel quality and with falling pitch. The differences in 
amplitude between the maxima and minima of the intensity curve 
were not as great as those predicted on the basis of the first-order 
models described by House, but are accounted for in his paper. 

The relationship of the fundamental frequency to the frequen- 
cies of the formants of highest amplitude thus also influence meas- 
ures of speech power. In interpreting speech power data for voiced 
speech sounds, then, the relationship between the glottal spectrum 
and the supraglottal transmission function for that sound should 
also be considered. 


Conclusions 


From the foregoing data and discussion we may conclude the 
following: 

1. The measurement of speech power level is relevant to the 
study of linguistic stress. 

2. The power level may be measured by means of a circuit with 
a rectifier followed by a filter. 

3. It is presently not appropriate to weight the spectrum of the 
speech signal before it is rectified. 

4. Linear rectification is most easily accomplished, and should 
be satisfactory for most linguistic studies. Square-law rectification, 
although more difficult, has theoretical advantages. 

5. A filter having a response closely approximating the Gaussian 
ideal adequately meets the relevant filter criteria. A relatively simple 
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Fig. 8. Narrow-band spectrograms, and amplitude and speech power curves for the 
vowels [a] and [0] pronounced with falling fundamental frequency. 


filter can be employed to provide an approximation to a Gaussian 


filter. 
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6. Compression of the filter output according to a logarithmic 
function is easy and is desirable. 

7. It is necessary to use care in the interpretation of data from 
a speech power circuit. An example of the complexities is the vari- 
ation in the power level of a vowel which occurs during changes in 
its fundamental frequency. 


Summary 


The measurement of speech power is basic to research on the 
acoustic correlates of linguistic stress. Two units essential to speech 
power measurement are a rectifier and a filter. An amplitude com- 
pressor is also desirable. 

Theoretically a square-law rectifier is ideally suited for speech 
power measurements, but there are considerable practical difficul- 
ties in implementing such a circuit. The common “linear rectifier” 
has been found experimentally to be suitable for this application. A 
simple filter design may be achieved which is adequate for most 
applications and which avoids the theoretical and practical diffi- 
culties of several other filter designs discussed. Logarithmic ampli- 
tude compression of the filter output is desirable and is easily 
accomplished with a diode. 

In making speech power measurements with the circuit de- 
veloped, an effect previously discussed by House has been observed. 


Die sprachlich-akustische Kraftmessung 
Kusammenfassung 


Die Erforschung der physikalischen Korrelate des dynamischen Akzentes setzt eine 
Messung der akustischen Kraft beim Sprechen voraus. Zwei wesentliche Bestandteile 
eines MeBapparates sind ein Gleichrichter und ein Filter. Ein Amplitudenkompressor 
ist ebenfalls wiinschenswert. 

Theoretisch ist ein quadratischer Gleichrichter fiir die Messung der Sprechkraft 
ideal geeignet; bedeutende praktische Schwierigkeiten ergeben sich aber bei der Ver- 
wirklichung einer solchen Schaltung. Der gewéhnliche lineare Gleichrichter hat sich 
erfahrungsgemaB fiir diese Verwendung als passend erwiesen. Ein einfacher Filter ist 
konstruiert worden, welcher fiir die meisten Anwendungen geniigt und welcher die 
theoretischen und praktischen Schwierigkeiten anderer hier besprochener Filtertypen 
vermeidet. Die erwiinschte logarithmische Amplitudenkompression des Filterausgangs- 
signals laBt sich mittels einer Diode leicht bewerkstelligen. 

Wahrend einiger Messungen der Sprechkraft mittels der hier beschriebenen An- 
ordnung ist ein zuerst von House besprochener Effekt beobachtet worden. 


La mesure de I’ énergie de la parole 


Résumé 
La mesure de l’énergie de la parole est fondamentale dans les recherches sur les 
corrélatifs acoustiques de l’accent. Deux appareils sont essentiels pour la mesure de 
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cette énergie: un rectificateur et un filtre. I] est aussi souhaitable d’avoir un compresseur 
d’amplitudes. 

En théorie, un rectificateur en régle de carrés convient idéalement a la mesure de 
l’énergie de la parole, mais on rencontre de considérables difficultés pratiques quand il 
s’agit de réaliser un tel circuit. Le rectificateur linéaire ordinaire s’est montré, a l’expé- 
rience, apte a cet emploi. On peut réaliser une simple forme de filtre qui satisfait a la 
plupart des emplois et qui évite les difficultés théoriques et pratiques de plusieurs autres 
formes de filtres décrites ici. La compression d’amplitude logarithmique du filtrage est 
souhaitable et facilement réalisable grace a une diode. 

En mesurant l’énergie de la parole au moyen du circuit ci-dessus, on a observé un 
effet étudié auparavant par House. 


References 


1. Cooper, F.S.; Liberman, A. M. and Borst, 7. M.: The interconversion of audible and 
visible patterns as a basis for research in the perception of speech. Proc. nat. Acad. 
Sci., Wash. 37: 318-325 (1951). 

2. Fant, G.: Acoustic analysis and synthesis of speech with applications to Swedish. 
Ericsson Technics no. /: 3-108 (1959). 

3. Fant, G.: Modern instruments and methods for acoustic studies of speech. Proc. 8th 
int. Congr. Ling., pp. 282-358 (Oslo 1958). 

4. Fletcher, H.: Speech and hearing in communication (New York 1953). 

5. Fry, D. B.: Experiments in the perception of stress. Language and Speech /: 126-152 
(1958). 

6. House, A. S.: A note on optimal vocal frequency. JSHR 2: 55-60 (1959). 

7. Klapper, J. and Harris, C. M.: On the response and approximation of Gaussian 
filters. IRE Transactions on Audio AU-7: 80-87 (1959). 

8. Lehiste, I.: Some acoustic correlates of accent in Serbo-Croatian. (To appear in 
Phonetica.) 

9. Lehiste, I. and Peterson, G. E.: Vowel amplitude and phonemic stress in American 
English. J. acoust. Soc. Amer. 37; 428-435 (1959). 

10. Licklider, 7. C. R.: Basic correlates of the auditory stimulus. Handbook of Experi- 
mental Psychology, pp. 985-1039 (John Wiley and Sons, Inc., New York 1951). 

11. Stevens, S. S.: Calculation of the loudness of complex noise. J. acoust. Soc. Amer. 28: 
807-832 (1956). 

12. Voss, H. H.: Realisierbare Tiefpasse und Bandpasse minimaler Phase mit geebneter 
Laufzeit und aperiodischem Einschwingverhalten. Frequenz 8: 98-102 (1954). 


Author’s address: Prof. Dr. Gordon E. Peterson, The University of Michigan, Communication Sciences 
Laboratory, Ann Arbor, Mich. (USA) 


Phonetica 7: 85-94 (1961). 


Phonémes labio-vélaires en espagnol ? 


Par Bertir MAvMBERG, Lund 


On a beaucoup discuté Vinterprétation phonologique de com- 
plexes phonétiques tels que les diphtongues, les affriquées et cer- 
taines consonnes a «double localisation» (palatalisées, labio-véla- 
risées, etc.). Je me dispense de renvoyer ici a toutes les contributions 
qui ont été données a la solution de ce probléme depuis la fondation 
de l’Ecole de Prague — et méme avant, surtout par le grand phoné- 
ticien auquel est dédié ce volume. Je ne fais que signaler ici le prin- 
cipe généralement valable pour linterprétation phonologique, ou 
phonémique, de cas pareils. $i, dans un systéme donné, il existe par 
exemple une suite phonétique [t/] et aussi, admissibles dans la 
méme position, un [¢] et un [/] — donc les trois possibilités [tA], 
[ [A] et [t/A] — on interpréte [t/] comme un groupe de phonémes 
(«cluster»). Dans ce cas, /t// s’ oppose a /tr/, /ts/, etc. Si, par contre, 
le systéme connait [¢] et [¢/] mais pas de [_/], il devient nécessaire de 
voir dans [t/] un seul phonéme /t”//, opposé a /t/, etc. Un segment 
phonétique qui est conditionné par son entourage et qui, par con- 
séquent, suppose celui-ci, ne peut pas étre un phonéme, tout au 
plus le trait distinctif d’un autre phonéme ([/] étant dans notre 
deuxiéme exemple le trait distinctif qui oppose /t”// a /t/). C’est la 
grosso modo le principe, et ce principe me semble bon. Reste a 
voir pourtant si, dans certains cas et dans tel ou tel but spécifique, 
il ne pourrait pas étre légitime d’essayer une autre interpretation 
qui, dans ce cas, serait justifiée par le résultat auquel elle aboutit, 

L’espagnol connait, comme plusieurs des langues sceurs, les 
groupes (orthographiques) cu-, gu-, phonétiquement [Aw], [gz], 
dans par exemple cudndo, cudl, guante, guardar (celui-la remontant 
historiquement a un groupe latin correspondant, écrit qu-, dont nous 
nous dispensons de discuter ici le caractére phonologique; celui-ci 
représentant le plus souvent un w— germanique, ou d’origine ame- 
ricaine ou autre). La langue connait aussi un /k/ et un /w/, ce 
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dernier écrit hu— (huevo, hueso, etc.) en orthographe ordinaire Call! 
me semble donc légitime, en vertu du principe d’interprétation que 
nous venons de formuler, d’interpréter les groupes /kw/ et /gw/ 
comme biphonématiques, puisque le /w/ initial est possible devant 
voyelle (quoiqu’avec une distribution limitee) * et que le /k/ eee 
la méme position n’est pas automatiquement suivi de /w/. De méme 
pour /gzw/. 

Dans mon article «Occlusion et spirance dans le systéme pho- 
nologique de l’espagnol» (Mélanges Michaélsson, 1952, pp. 356-365), 
j’ai dressé une liste des dites occlusives de la langue avec leurs 
variantes faibles (spirantes), donc dans la série des sonores: 
b—b,d—0,g—y.J’y ai indiqué aussi les réductions qui, surtout dans 
les formes dialectales et vulgaires de la langue, se produisent en fin 
de syllabe ot trés peu des distinctions admises a Vinitiale restent 
valables. Je renvoie pour tous les détails a cet article et me contente 
de rappeler ici que, dans ce schéma, je me suis permis de compter 
les groupes cu— /kw/ et gu— /gw/ (variante faible [yw]) comme des 
phonémes a part, opposés comme des labio-vélaires aux /k/ et /g/ 
non labiaux, donc en transcription phonétique [AY] et [g¥] ([y*]), 
phonologiquement /k¥/ et /g¥/. 

Une conséquence de cette interprétation est que le fu— de fuego, 
fuera sera analysé comme /fW/, et le ju— de juego, jueves comme /x/, 
opposes a /f/ et a /x/ «simples». C’est la du reste une opposition a 
rendement trés faible, fuego ~ juego étant la seule paire minimale. 

I] sera donc possible de dresser le schéma suivant des consonnes 


1 Je pars, en faisant l’analyse ainsi, de la description donnée par Tomds Navarro, 
Pronunciacion espanola, § 65 (et la note 1, p. 64), selon lequel la langue vulgaire seule peut 
aller jusqu’a une occlusive dans ces mots (huevo, hueso), aprés nasale et en position 
initiale absolue, tandis que déja la conversation familiére peut développer une véritable 
consonne spirante (un [w]) dans ahuecar [awe’kar], hueso [’weso], etc. Déja lorthographe 
utilisée pour rendre dans la littérature en langue populaire la prononciation [g¥] ou 
[yw], 4 savoir gii- pour hu-, prouve que cette différence de traitement entre la pronon- 
ciation chatiée et la prononciation populaire est sentie consciemment par les personnes 
qui se servent de ces graphies et que, par conséquent, l’initiale de guante est A regarder 
comme différente de celle de hueso. (Je reviens plus loin a la description différente de ces 
faits que donne Emilio Alarcos Llorach, Fonologia espaiola, 3 éd., 1961.) Sinon, il n’y 
aurait aucune raison de medifier ’orthographe dans les textes en langue vulgaire. 

* Si lon fait abstraction du verbe huir et dérivés (huida) et de quelques améri- 
canismes avec des doublets en gu— (huincha — giiincha, huira — giiira), |w] (orth. hu-) ne se 
retrouve que devant —e (hueco, huerto, hueso, etc.). Cf. aussi plus loin. Les faits historiques 
qui expliquent cette distribution sont trop évidents pour que jinsiste. L’alternance 
morphologique entre /w/ consonne et des formes avec une voyelle dans le radical dans 


huir ~ huye, etc., huele ~ oler, etc. est une complication des faits phonologiques dont je 
fais abstraction pour le moment. 
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(occlusives et spirantes) qui nous intéressent (en excluant pour des 
raisons de simplification systématique les nasales, les liquides et 
la sifflante s) avec leurs principales variantes: 


Poe 0 0) —b(9)* 
f= 44(0).— p 
Gael cere] GI). 
Ge 
kw— gw (y*, main 


Ww PLES 


I] ressort de ce schéma quil y a quelques anomalies dans le 
systéme. Les spirantes sonores sont normalement les variantes 
faibles de phonémes neutres au point de vue de la distinction occlu- 
sion c% spirance, selon les régles connues (Valencia [ba'lenpja] mais a 
Valencia [a bal'enpja]). La différence entre [g¥] et [w] au contraire 
a lair de pouvoir étre phonologique (méme si les paires minimales 
font défaut a cause de la distribution asymétrique des phonémes). 
Ce serait donc le dernier reste d’une opposition que le castillan a 
perdue au cours du moyen age et que les efforts des maitres d’école 
(surtout, semble-t-il, dans certains pays de lAmérique latine; 
cf. mes Etudes précitées, pp. 61-62, et mes Notas sobre la fonética del 
espanol en el Paraguay, 1947, pp. 15-16) n’ont pas réussi a rétablir 
(sauf dans la bouche de quelques pédants). I] n’y a donc rien de 
surprenant dans le fait bien connu que, dans un trés grand nombre 
de parlers castillans, en Espagne aussi bien qu’en Amérique, cette 
distinction disparait également et que les mots a /u— initial sont 
englobés dans le systéme d’alternance entre occlusive et spirante 
connu des autres séries, d’oti giieso, giievo, etc. dans la littérature en 
langue populaire. La forme faible [w], réalisée a lintervocalique 
dans yo guardo [’yWardo] ou [’wardo], est le point de départ naturel de 


3 La prononciation bilabiale du / est sans doute plus répandue dans les différents 
parlers castillans que ne le font supposer les indications des manuels et des descriptions 
dialectologiques. C’est surtout devant u que le f bilabial est fréquent, donc aussi dans le 
phonéme /f/ de notre schéma (cf. mes Etudes sur la phonétique de Vespagnol parlé en Ar- 
gentine, 1950, pp. 96-97). 

4 Tl serait possible de classer le /s/ comme la palatale spirante (sourde), paralléle 
aux [fl — |p| —/x/. On connait le caractére apico-alvéolaire du /s/ castillan, d’ou un 
timbre assez «palatal». J’hésite pourtant un peu 4 le faire, vu le caractére phonétique 
particulier de ce phonéme, mais vois, d’autre part, dans sa place un peu en dehors du 
reste du systéme une des raisons de sa tendance a devenir [h] en position implosive 


(cf. plus loin). 
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cette confusion. La différence entre [py] et [w] est graphique plutot 
que phonétique. Elle se réduit tout au plus a une minime différence 
de rétrécissement dorso-vélaire et n’est pas plus sensible que celle 
entre les différentes réalisations possibles du [d] ou du [6] inter- 
vocaliques, ou toutes les nuances entre une véritable spirante a 
friction audible et un rétrécissement peu perceptible du passage de 
Pair sont imaginables et instrumentalement vérifiées (cf. mes 
Etudes précitées, pp. 63 ss, 70 ss, 85 ss). Dans bien des parlers cas- 
tillans, le /w/ a donc disparu complétement de linventaire des pho- 
némes consonantiques et avec celui-la aussi toute trace opposition 
entre occlusive et spirante sonores. 

On sait aussi que la distinction entre gu— et bu— a été supprimée 
dans les mémes parlers (giieno pour bueno, etc., et méme quelquefois 
le phénoméne inverse). C’est évidemment Didentité en position 
faible qui en est le point de départ, [w] étant la réalisation phoné- 
tique des deux: (estd) bueno ['weno], (compra) huevos ['webos]. [w] peut 
donc facilement étre senti comme la variante faible de /g¥/, d’ot la 
réalisation de la forme forte de [’weno] comme [’gW¥eno] (orth. giieno 
dans la littérature en langue populaire). I] n’y a donc aucune raison 
de prendre en considération aussi un phonéme velarisé /b)¥/ opposé 
a /g¥/, puisque le type disparait avec la stabilisation d’une série 
labio-vélaire a valeur phonologique. 

Il serait sans doute justifié de prendre en considération ici 
également une possibilité d’interprétation des gu— co hu— qui est en 
partie différente de celle proposée ci-dessus. En ne tenant compte 
que de la position initiale, il serait tentant de voir dans [g¥] — [w] des 
variantes en distribution complémentaire, gu— [g¥] se trouvant 
devant /a/, hu—[w] devant /e/. Il n’y a pas d’exemples devant /o/ 
et /u/; ils sont rares devant /z/. Les exemples de hu-— initial devant 
/a/ dans le grand dictionnaire espagnol-danois de Carl Bratli (1947) 
sont tous des mots américains avec un doublet en gu— (huaca — guaca, 
huango — guango, etc.). Les quelques exemples de gu— devant /e/ sont 
tous des mots spéciaux (américanismes, dialectalismes ou emprunts : 
giiecho, giielfo). Devant /2/, il y a quelques exemples comme giiilo, 
gira, giiica (dont quelques-uns avec une variante en hu—: huira). 
A Vintervocalique, on retrouve les mémes variations, surtout dans 
les américanismes: ahuanés — aguanés, etc. Mais il serait peut-étre 
malgré tout aller trop loin que de voir dans ces deux initiales 
uniquement des variantes conditionnées du méme phonéme. II y 
a tout de méme une possibilité d’opposition, me semble-t-il, a Pin- 
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tervocalique entre agilero |a'gwero| et ahuero (du verbe ahuerar) 
/a'wero|. On trouvera facilement d’autres exemples avec —gu— et —hu— 
intervocaliques ou, avec notre point de départ, il serait faux de 
parler @identité phonétique. Mais de l’autre cété, il est évident 
que cette distribution est un des facteurs qui contribuent a la 
disparition définitive de toute trace de distinction. C’est cette dis- 
tribution et la tendance structurale a la disparition de l’opposition 
qui expliquent ensemble le fait bien connu que tous les emprunts 
aux langues américaines a hu— [w] initial ont été hispanisés avec gu- 
(guanaco, guano, guarango, etc.; cf. mes Etudes, p. 88, Mélanges Mi- 
chaélsson, p. 359, Tiscornia, Bibl. dial. hispanoamericana III, p. 54). 
Rappelons aussi que le méme renforcement d’une initiale en [we] 
a eu lieu dans d’autres dialectes hispaniques que le castillan (ara- 
gonais, aranais, etc.; des exemples aragonais chez Tilander, Los 
JSueros de Aragon, 1937, pp. XL-—XLI). Donec, s’il était faux® de dire 
tout court qu’il n’y a pas de distinction du tout et que les deux types 
sont en distribution complémentaire, il serait également faux de 
parler tout simplement d’opposition. Nous nous trouvons en réalité 
devant une distinction en train de disparaitre et devant un systéme 
en pleine reconstruction. 

Dans notre schéma ci-dessus, le /f¥/ est isolé. Son caractére 
labial est en réalité redondant sauf dans le cas de la paire unique 
mentionnée fuego co juego. Par conséquent, cette caractéristique 
redondante disparait avec, comme résultat, une confusion compléte 
entre /f¥/ et /x¥/, dou les formes jut, jueron, juera, etc. (phon. 
[’xWera], etc.) dans la littérature en langue populaire. Il est évident 
que cette confusion a lieu d’autant plus facilement que, justement 
dans cette combinaison, l’articulation est trés souvent bilabiale 
[ov] (cf. mes Etudes, pp. 96-97, de méme le schéma ci-dessus, 
la note 3) ® 

Dans les parlers qui connaissent les réductions phonologiques 
dont nous venons de donner des exemples, le /// du tableau ci-dessus 
manque en général lui aussi, confondu avec /s/. C’est, on le sait, le 
cas de toute l’Amérique espagnole et d’une grande partie du Sud de 


5 Toujours avec la description de Tomds Navarro comme base de la discussion. 

6 C’est par un raisonnement en principe analogue que j’ai cru pouvoir expliquer 
le fameux passage f > h en castillan prélittéraire (la perte d’un trait redondant; voir 
mon article dans les Mélanges Petrovici, sous presse). A mon avis, ce passage devient 
également plus naturel si l’on part, comme je pense qu’il le faut, d’un f bilabial. 
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la Péninsule?. Dans ce cas, c’est le /s/ qui prend la place du [pI 
dans notre schéma, partenaire spirant sourd de /t/ et de /d/, ce qui 
implique 4 son tour que le caractére sifflant de cette spirante 
(«strident» opposé 4 «mellow», dans la terminologie de Jakobsen 
Fant et Halle, Preliminaries, § 2.321) devient redondant. Le systeme 
ne permet plus d’opposer une spirante a ouverture « ronde» a une 
autre A ouverture «plate». Il me semble donc parfaitement normal 
que ce soit dans ces mémes parlers (sans /p/) que le /s/ tende surtout 
a s’affaiblir, A devenir une espéce de [Af], spirante neutre se réglant 
d’aprés l’entourage®. Mais déja la structure du systeme castillan 
optimal (avec /p/) est favorable 4 un tel développement (cf. ci- 
dessus, note 4). Je renvoie pour des exemples de tous ces phéno- 
ménes a mes Etudes précitées (pp. 156-172) et aux nombreux renvois 
qui y ont été faits. Cet affaiblissement a lieu, on le sait, d’abord et 
surtout en fin de syllabe, en vertu de la tendance syllabique de la 
langue (dont j’ai parlé ailleurs; cf. Boletim de filologia IX, 1948, 
pp. 99-120°), mais s’étend, dans quelques parlers, au /s/ inter- 
vocalique (intérieur de Argentine, Chili, Venezuela, etc. en Amé- 
rique; Etudes, p. 168), et méme quelquefois initial (Lenz, Bibl. dial. 
hispanoamericana VI, p. 125). Il est normal que la redondance ait 
plus de peine a se maintenir en position faible (implosive) qu’en 
position forte (initiale de la syllabe). 

Ces quelques remarques ont été faites pour illustrer une ques- 
tion de principe et de méthode plutdt que pour contribuer a 
Panalyse phonémique du castillan et de ses tendances évolutives, 
sur lesquelles j’aurai du reste bient6t l’occasion de revenir. Je me 
suis permis, dans mon analyse, de partir de Phypothése d’une inter- 
prétation monophonématique des cu-, gu-, fu-, ju- castillans (ou 
plus correctement des groupes ainsi orthographiés) — interprétation 


7 Voir pour des précisions mes Etudes précitées, pp. 172-173, et les renvois y faits 
(Alonso-Lida, Bibl. dial. hispanoamericana VI, p. 213, note, etc.). 

® I] est probable que le caractére prédorsal du s dans ces régions facilite l’affaiblis- 
sement. On sait que le s castillan du centre est apical. Ce n’est certainement pas non plus 
un effet du hasard si c’est en principe dans les régions 4 opposition /s/  / Ib] que le s est 
apical et si ce sont les parlers 4 une seule sifflante qui préférent le s apical. II importe de 
rappeler que l’espagnol ne connait pas de [f]. Je note enfin aussi la possibilité d’une 
tendance, au moins en argentin populaire, 4 confondre —s (en fin de syllabe) avec —f, 
d’ou la forme (graphique) astosa pour [fiebre] aftosa ‘fievre aphteuse’, confusion faite 
probablement a partir de [a®’tosa] avec «aspiration» du s et de [ag’tosa] respectivement, 
différence extrémement subtile auditivement (voir mes Etudes, Ds Wis 


* C’est 14 une des questions sur lesquelles je pense revenir sous peu dans un autre 
ordre d’idées. 
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fausse d’aprés les principes généralement admis en analyse phoné- 
mique. Mais ce point de départ m’a permis de rendre compte — 
et de donner une explication structurale — d’une tendance popu- 
laire trés forte et trés répandue dans le domaine de langue castillane, 
tendance qui, du reste, entre d’une facon naturelle dans le cadre 
des modifications structurales subies par ce dialecte roman depuis 
Pépoque prélittéraire, c’est-a-dire au cours du dernier millénaire. 
La méme interprétation m’a permis aussi de mieux comprendre la 
disparition du /f*/, confondu avec /x¥/ pour une raison qui 
ressemble étrangement a l’énigmatique disparition du f du systéme 
castillan au début de Vére littéraire 1, 

La dite aspiration du s espagnol — qui met son empreinte sur 
tant de parlers castillans, péninsulaires et américains — obtient aussi 
sa raison d’étre a l’intérieur du systéme ainsi esquissé, quoique ce 
phenoméne ne soit pas en rapport direct avec les autres et qu’ils ne 
couvrent pas non plus exactement les mémes aires dialectales. I] est 
donc probable que le systéme réalisé en castillan vulgaire et dialectal 
est celui que la langue cherche a réaliser mais que les tendances 
conservatrices empéchent de se généraliser. C’est donc a travers les 
phénoménes dialectaux, et en appliquant comme hypothése de 
travail une interprétation au fond inexacte, que je crois pouvoir 
décrire le systéme consonantique de l’espagnol tel quw’il se manifeste 
dans ses tendances évolutives et dans ses formes les plus évoluées 
(= les plus pauvres au point de vue du nombre des distinctions 
utilisées). Il est évident que le systéme évolue vers une confusion 
des groupes (orthographiés) hu— et gu-. Dans les états de langues nés 
de cette évolution, le [w] n’existe plus comme phonéme, donc /g¥/ 
doit s’interpréter comme un seul phonéme. C’est en appliquant 
cette méme interprétation déja au systéme non évolué (le castillan 
officiel) qu’on arrive le mieux a expliquer les modifications subies 
par celui-ci. C’est donc le résultat de cette méme évolution qui 


10 T] est intéressant de constater que la position devant /u/ est la seule ot: le passage 
f > h wait pas eu lieu en castillan prélittéraire (abstraction faite des mots savants et des 
groupes avec liquides), empéché, d’aprés l’opinion généralement admise, par une diffé- 
rentiation conservante. Les tendances dialectales et vulgaires ont donc tout simplement 
généralisé le passage f > h, avec la seule différence, pourtant, que la spirante postérieure 
(pharyngale et laryngale respectivement, mais avec une tendance nette a la généralisa- 
tion de l’articulation pharyngale aussi dans le dernier cas: [AW], si lon me permet cette 
fantaisie, ou peut-étre mieux [™]) dans le cas de la labiovélaire n’a pas encore été amuie. 
Cf. pourtant une certaine tendance a confondre en argentin vulgaire aussi /g¥/ et /x¥/ 
(cf. mes Etudes, p. 97). 


92 Malmberg, Phonémes labio-vélaires en espagnol? 


justifie ’hypothése de travail choisie au début de lanalyse??. Chest 
cette hypothése qui permet de comprendre comment et pourquol 
les tendances structurales du systeéme consonantique espagnol se 
généralisent et comment sa structure arrive peu a peu a un équilibre 
parfait, toutefois avec, comme conséquence, la perte de quelques- 
unes de ses distinctions les plus utiles. 

En interprétant nos groupes comme une suite de deux pho- 
némes il aurait été plus difficile, ou en tout cas plus complique, de 
rendre compte de l’introduction du phonéme /g/ devant le /w/ (ou 
[u/) initial. Les méthodes d’analyse, en linguistique comme partout 
ailleurs, doivent au moins en partie étre jugées d’aprés les résultats 
qu’on obtient en les appliquant’?. 


1 Dans sa Fonologia espafiola Alarcos Llorach objecte contre l’interprétation mono- 
phonématique des cu-, gu-, qu’avec cette analyse on serait obligé d’introduire toute une 
série d’autres labio-vélaires: /b¥, p¥, t¥, d¥, n, /¥/ (dans vuelta, puerto, tuerto, duelo, nuevo, 
luego, etc.). La remarque est parfaitement logique, mais tandis que l’interprétation 
monophonématique des groupes initiaux de /uego, nuevo n’aurait aucune autre consé- 
quence qu’un allongement inutile et méthodiquement inacceptable de la liste des con- 
sonnes, la méme interprétation des /k¥/ — /g¥/ rendra plus clairs certains phénoménes 
d@évolution dialectale et vulgaire en les faisant entrer dans le cadre de tendances 
structurales d’un caractére général. 

12 Selon la description des faits discutés ici donnée par Emilio Alarcos Llorach 
(Fonologia espaniola, 3 éd. 1961, § 103, pp. 157-159), Valtération du systéme décrite ici 
serait déja un fait accompli. Selon cet auteur, il n’y aurait aucune différence de pronon- 
ciation entre gu— et hu- (les deux groupes orthographiques étant en distribution complé- 
mentaire; «pura cuestién orthografica», p. 158, cf. ci-dessus, note 2). Il dit expressé- 
ment que de huellas et degiiellas se prononcent de fagon identique («se realizan igual», 
p. 158). Y aurait-il entre les descriptions données par ces deux spécialistes espagnols une 
différence de génération? C’est possible. Je n’ose pas me prononcer la-dessus. Menéndez 
Pidal (Manual, § 35, 7e) exprime une opinion plutét intermédiaire, en admettant d’un 
cété la possibilité d’une prononciation occlusive du type Auevo mais en donnant d’autre 
part la transcription [@'werto] ou [dn'werto] a coté de [wn'gwerto]. Peu importe. 
Sic’est la description donnée par M. Alarcos qui est la bonne, ceci prouve tout simplement 
que la tendance structurale en question a abouti et que l’anomalie qu était l’existence d’un 
/w]/ opposé a un /g¥/ a disparu. On sait qu’en réalité la prononciation décrite ici comme 
populaire (giieso, giierto, etc.) ne date pas d’hier et que les graphies de ce genre abondent 
déja dans la littérature classique. C’est un exemple parmi tant d’autres d’un vulgarisme 
castillan qui est en méme temps un archaisme. Donc, la tendance A équilibrer le systéme 
est ancienne. Est-ce grace 4 l’orthographe et aux efforts des grammairiens que la géné- 
ralisation définitive de l’équilibre phonologique n’a réussi qu’avec peine et A une époque 
toute récente a s’imposer dans la bonne prononciation espagnole? — M. Alarcos (op. cit., 
p- 159, note 1) fait remarquer que M. Martinet (Economie des changements phonétiques, p. 83) 
accepte le /w/ parmi les phonémes de la langue mais que Amado Alonso le trouve «muy 
objetable» (Bibl. dial. hispanoamericana VI, 1940, p. 88, note 1). Je fais remarquer 
pourtant qu’a l’endroit cité Alonso ne discute pas l’existence du /w/ dans le systéme conso- 
nantique, seulement le caractére monophonématique du groupe [yw], et que c’est cette 
interprétation qu’il trouve «muy objetable». 
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Résumé 

L’auteur propose comme hypothése de travail une interpré- 
tation monophonématique des /k¥/, /g¥/ espagnols (orthographi- 
quement cu-, gu—). Cette interprétation a l’avantage de mieux 
rendre compte d’une tendance évolutive, caractéristique du phoné- 
tisme castillan depuis le moyen Age, a savoir la confusion du pho- 
néme /w/ (écrit hu-) avec /g¥/, et aussi de la confusion des groupes 
écrits orthographiquement gu— et bu- (bueno > giieno, etc.). Avec la 
confusion entre /w/ et /g¥/, la paire labio-vélaire [gv] —[w] s’est 
réglée d’aprés le méme systéme d’alternance entre occlusive et 
spirante que, depuis la fin du moyen Age, les autres trois paires 


[5] — [6], [4] -[4] et [g] -[y]. 


Kusammenfassung 


Der Verfasser schlagt als Arbeitshypothese vor, spanische /k¥/, /g¥/ (orthogra- 
phisch cu—, gu-) monophonematisch zu werten. Eine solche Wertung hat den Vorzug, 
daB sie besser erklart, wie sich die spanischen Laute seit dem Mittelalter entwickelt 
haben. Die Phoneme /w/ (geschrieben Au—) und /g¥/ sind zusammengefallen. AuBerdem 
sind die Gruppen, die gu- und bu— geschrieben werden, zusammengefallen (bueno > 
giieno usw.). Nach dem Zusammenfall von /w/ und /g¥/ nimmt das labio-velare Paar 
[g¥] —[w] an dem gleichen alternativen System von VerschluB- und Reibelaut teil wie 
die drei anderen Paare [}] — [6], [¢] — [6] und [g] — [y] seit dem Ende des Mittelalters. 


Summary 


The author puts forward as a working hypothesis a monophonematic inter- 
pretation of the Spanish /k¥/, /g¥/, (cu-, gu- in ordinary orthography). This interpre- 
tation has the advantage of giving a better explanation of a tendency in Spanish pho- 
netics which has been at work since the Middle Ages, i.e. the confusion between the 
phonemes /w/ (written hu-) and /g¥/, and also of the confusion between the groups 
written in ordinary orthography gu- and bu-— (bueno > giieno, etc.). After the confusion 
between /w/ and /gW/, the labio-velar pair [gw] —[w] has been adapted to the same 
system of alternation between stop and fricative as, since the end of the Middle Ages, 
caracterizes the other three pairs [4] — [6], [d] — [6], and [g] — [7]. 
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Physikalisch-Technische Bundesanstalt, Braunschweig und Berlin 


Zur Technik der Tonbandaufnahme 
bei Sprachuntersuchungen 


Von WERNER KALLENBACH und HANs-JURGEN SCHROEDER 


Einleitung 


Die Magnettontechnik hat sich in den letzten 25 Jahren zu dem 
hochwertigsten Schallaufzeichnungsverfahren entwickelt. Sie ist im 
Bereich des Rundfunks nicht zuletzt wegen ihrer betrieblichen Vor- 
teile: standige Aufnahmebereitschaft, sofortige Wiedergabemég- 
lichkeit der Aufnahmen ohne mechanische oder chemische Nach- 
behandlung und einfache Moglichkeit des Schneidens und Klebens 
zu einem unentbehrlichen Bestandteil der Studioeinrichtungen ge- 
worden. Neben den hochwertigen Studiomaschinen wurden in den 
letzten Jahren von der Industrie in groBem Mafstabe auch einfach 
zu bedienende Heimgerate entwickelt, die wegen ihres verhdltnis- 
mafig niedrigen Preises einen weiten Abnehmerkreis fanden. Durch 
die Herabsetzung der Bandgeschwindigkeit, die Einfiihrung der 
Zweispur- und neuerdings der Vierspurtechnik gelang es ferner, die 
Kosten fiir das Bandmaterial zu senken. Entsprechend den gestei- 
gerten Anforderungen wurden auch neue Bandtypen entwickelt; 
trotzdem war ein gewisser Verlust an Aufzeichnungsqualitat bei 
diesen Geraten nicht zu umgehen, doch ist dies bei dem in Frage 
kommenden Kauferkreis meist nicht von entscheidender Bedeutung. 

Auch in der Wissenschaft und Forschung erkannte man bald 
die Vorteile der magnetischen Schallaufzeichnung und machte sie 
sich zunutze. In der Akustik werden beispielsweise die Schallvor- 
gange auf Tonband aufgenommen und die Aufzeichnungen an- 
schlieBend im Laboratorium nach den verschiedensten Methoden 
untersucht. 

Ebenso werden in der Phonetik, bei Dialektuntersuchungen, 
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aber auch in der Medizin bei Untersuchungen an Sprachgestorten 
und Geisteskranken sowie bei psychologischen und physiologischen 
Fragestellungen Tonbandaufnahmen in zunehmendem Mabe ver- 
wendet. In allen diesen Fallen tritt an den Versuchsleiter das Pro- 
blem heran, das fiir einen bestimmten Zweck geeignete Gerat zu 
beschaffen und insbesondere zu entscheiden, ob ein einfaches Heim- 
gerat ausreicht oder eine hochwertige und dementsprechend kost- 
spielige Studioapparatur erforderlich ist. Diese Frage 1laBt sich all- 
gemein nicht beantworten, sie hangt von dem angestrebten Ziel der 
Untersuchungen ab und muB von Fall zu Fall gepriift werden. 

Die folgenden Ausfiihrungen sollen dazu beitragen, dem Ver- 
suchsleiter die Entscheidung zu erleichtern und ihm die Qualitats- 
einbuBe bei kleinen Bandgeschwindigkeiten und ihre Auswirkungen 
auf die verschiedenen Sprachuntersuchungs-Methoden vor Augen 
zu fiihren. Dabei soll auch auf einige Punkte hingewiesen werden, 
die bei der Aufnahme selbst von Bedeutung sind. 


Pegelschwankungen 


Die Herabsetzung der bei Studiogeraten iiblichen Bandge- 
schwindigkeit von 38,1 cm/s auf 19,05, 9,5 oder sogar 4,75 cm/s bei 
Heimgeraten hat zur Folge, daB die auf dem Bande aufgezeichnete 
Information entsprechend im Verhaltnis 1:2, 1:4 oder gar 1:8 zu- 
sammengedrangt wird, d.h. daB die auf dem Bande aufgezeichneten 
Wellenlangen entsprechend kiirzer werden. Im gleichen MaBe wie 
sich die Wellenlange verkleinert, tritt auch der StreufluB zwischen 
benachbarten magnetischen Nord- und Siidpolen in der Schicht 
weniger weit aus der Bandoberflache hervor. Um den gesamten 
magnetischen StreufluB vom Wiedergabekopf erfassen zu kénnen, 
muB das Band standig mit ausreichendem mechanischen Kontakt 
am Kopf vorbeigefiihrt werden. Dieser Kontakt 148t sich in der 
Praxis jedoch nicht absolut sicher aufrechterhalten. Abhebungen 
von einigen um, verursacht durch Unebenheiten der Bandoberflache 
und aufliegende Staubpartikel lassen sich nicht vermeiden. Wahrend 
solche Abhebungen bei den grofBen Bandgeschwindigkeiten keine 
Wirkung zeigen, fiihren sie bei kleinen Geschwindigkeiten, ebenso 
wie unvermeidliche Inhomogenitaten der magnetischen Schicht, zu 
erheblichen Pegelschwankungen. Zur Veranschaulichung dieses 
Effektes sind in Abb. 1 Pegelaufzeichnungen von 20 sec Dauer der 
Frequenzen 60 Hz, 1,6und 10 kHz wiedergegeben, die sich bei 38, 
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Abb. 1. Pegelschwankungen bei Vollspuraufzeichnung. 


19 und 9,5 cm/s Vollspuraufzeichnung ergaben. Wahrend bis | kHz 
bei allen Geschwindigkeiten die Schwankungen innerhalb eines 
Bereiches von 0,2 dB liegen, erreichen sie bei 10 kHz und 9,5 cm/s 
bereits Werte von 1,5 dB. Noch groBer werden die Schwankungen, 
wie Abb. 2 erkennen 1a8t, wenn man zur Halbspurabtastung iiber- 
geht, da eine kleine lokale Unebenheit oder ein kleiner Fehler in der 
Schicht sich hier starker auf den Pegel auswirken als bei Vollspur. 
Die beiden unteren Aufzeichnungen von Abb.2 ergaben sich mit 
einem Kombikopf, bei dem fiir Aufnahme und Wiedergabe der 
gleiche Kopf beniitzt wird. Dies ist an sich der giinstigste Fall, da 
kleine Abweichungen der Spaltform bei Aufnahme und Wiedergabe 
in gleicher Weise eingehen und daher bei der Wiedergabe nicht 
st6rend in Erscheinung treten. Trotzdem werden bei 9,5 cm/s und 
10 kHz Werte von 1,5 dB und bei 4,75 cm/s und 6 kHz sogar von 
fast 3 dB erreicht. Noch wesentlich unangenehmer sind die Ver- 
haltnisse bei der Vierspurtechnik in Verbindung mit der Band- 
geschwindigkeit 4,75 cm/s. Hier bilden die «drop-outs» ein zurzeit 
von der Technik noch nicht ausreichend beherrschtes Problem. 


Spaltstellung 


Noch schwerwiegender als die Pegelschwankungen infolge 
mangelhaften Bandkontaktes ist der EinfluB der Schiefstellung des 
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Abb. 2. Pegelschwankungen bei Halbspuraufzeichnung. 


Spaltes bei kleinen Bandgeschwindigkeiten. Hierauf hat kiirzlich 
H. Schmidt* besonders hingewiesen. Verwendet man fiir Aufnahme 
und Wiedergabe das gleiche, mit einem kombinierten Sprech-H6r- 
Kopf ausgeriistete Gerat, so spielt es keine Rolle, ob der Kopfspalt 
genau senkrecht zur Langsachse des Bandes steht, da ja ftir die 
Abtastung der gleiche Kopf wie bei der Aufnahme verwendet wird 
und damit die Parallelitat von Kopfspalt und Magnetisierungsrich- 
tung innerhalb der Genauigkeit der Bandfiihrung gewahrleistet ist. 
Anders liegen die Dinge jedoch, wenn eine Aufnahme auf einem 
zweiten Gerat abgespielt werden mu8. Dieser Fall kommt in der 
Praxis haufig vor, z.B., wenn Bandaufnahmen in einem anderen 
Institut ausgewertet werden sollen. Steht bei dem zweiten Gerat der 
Spalt nicht genau parallel zur Magnetisierungsrichtung des be- 
spielten Bandes, so tastet die Oberkante des Spaltes eine gegeniiber 
der Unterkante versetzte Stelle des Bandes ab. Es wird damit im 


* H. Schmidt: Die Justierung von Magnettonképfen. Funktechnik 1960, S. 784-786. 
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Kopf eine Spannung induziert, die von der Oberkante bis zur Unter- 
kante des Spaltes aus verschiedenen, in der Phase gegeneinander 
verschobenen Anteilen besteht. Im Extremfalle, wenn namlich die 
Schiefstellung sich gerade iiber eine volle Wellenlange der aufge- 
zeichneten Frequenz erstreckt, tritt bei der Wiedergabe sogar vollige 
Ausléschung ein. Bedenkt man, da8 z.B. bei 9,5 cm/s und 10 kHz 
die Wellenlange 4 = c/v = 9,5/10000 cm = 9,5 um betragt, so er- 
kennt man, daf schon Schiefstellungen von wenigen Winkelminuten 
einen erheblichen Verlust bei den héheren Frequenzanteilen zur 
Folge haben. Schmidt hat in seiner Arbeit den Verlust formelmaBig 
in Abhangigkeit von Bandgeschwindigkeit und Frequenz angegeben. 
Um zu zeigen, wie sich der Effekt in der Praxis auswirkt, sind in 
Abb.3 die Frequenzgange im Bereich von | bis 15 kHz dargestellt, 
die sich bei richtiger und um 6’ abweichender Spaltstellung ergeben. 
Eine Abweichung von 6’ ist nur ein geringer Betrag, wenn man be- 
denkt, daB die zur Einstellung von Tonbandgeraten benutzten Be- 
zugsbander, die einen besonderen Teil zur Spaltjustage besitzen, 
selbst schon Abweichungen von +3’ von der Senkrechtlage auf- 
weisen kénnen. In Abb.3 sind von oben nach unten paarweise die 
Frequenzgange fiir 38, 19 und 9,5 cm/s dargestellt und zwar links 
jeweils fiir Vollspur- und rechts fiir Halbspurabtastung. Zu beachten 
ist dabei, daf der Abstand zwischen zwei Ordinatenlinien hier 
2,5 dB gegeniiber 1 dB in Abb.1 und 2 betragt. Es ist deutlich zu 
erkennen, wie stark sich die Schiefstellung des Spaltes auf den 
Frequenzgang auswirkt, vor allem bei Vollspur. AuBer dem Abfall 
der Hoéhen treten noch starke Pegelschwankungen infolge von Un- 
genauigkeiten der Bandfiihrung auf. Bei Halbspurabtastung ist der 
Effekt wesentlich kleiner, weil der Abstand zwischen Spalt-Ober- 
und -Unterkante nur knapp halb so groB und damit die Versetzung 
in Langsrichtung des Bandes entsprechend geringer ist als bei Voll- 
spur. Da bei Halbspur jedoch gréBere Pegelschwankungen und eine 
Verschlechterung des Rauschabstandes um mindestens 3 dB ein- 
treten, bedeutet der Ubergang zur Halbspuraufzeichnung immer 
eine Minderung der Qualitat. 

Ein Abfall des Frequenzganges bei hohen Frequenzen wirkt 
sich entsprechend auf Frequenzanalysen von Schallvorgangen aus 
und ist auch bei der Wiedergabe der Aufnahmen deutlich hérbar. 
Diesem Punkt ist daher bei Austausch von Tonbandern besondere 
Beachtung zu schenken. Bei Heimgeraten schwankt die vom Her- 
steller vorgenommene Einstellung von Gerat zu Gerat im allge- 
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Abb. 3. EinfluB der Spaltschiefstellung auf den Wiedergabefrequenzgang. 


meinen so stark, daB z. B. bei 9,5 cm/s Halbspuraufzeichnung in den 
meisten Fallen mit einem erheblichen Verlust an Héhen bei Aus- 
tausch von Aufnahmen zu rechnen ist. 
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EinfluB von Brummspannungen, Rauschen und Nachhall 


Es sollen nun einige Einfliisse betrachtet werden, die besonders 
schadlich sind, wenn von den Bandaufnahmen Ate cceeuieen der 
Tonhéhe mit dem Tonhohenschreiber nach Grtitzmacher und Lotter- 
moser* vorgenommen werden sollen, was fiir eine quantitative Aus- 
wertung von Sprachaufnahmen haufig wiinschenswert ist. Abb.4 


i aN Nem Iii iini nti 
lin Seem neni shi ia 


Abb. 4. Tonhdhenaufzeichnung des Wortes «Idealzustand». 


zeigt als Beispiel die Aufzeichnung des Wortes «Idealzustand» in 
der Form, wie sie das Gerat jetzt liefert. Man erkennt in der Reihen- 
folge von oben nach unten die Zeitmarke (50 Hz), das Oszillo- 
gramm in komprimierter Form, um auch kleine Amplituden noch 
deutlich hervortreten zu lassen, die Schallpegelkurve in annahernd 
logarithmischem Mafstab (dB), die lineare Schalldruckkurve und 
schlieBlich die eigentliche Tonhohenaufzeichnung. Die Berandung 
zwischen hellem und dunklem Bereich gibt den Verlauf der ‘Ton- 
hohe an. Am linken Rande ist der Frequenzmabstab eingetragen. 
Die dicken horizontalen Linien entsprechen dabei den Oktaven des 
Tones c. Die Helligkeitsmodulation innerhalb des geschwarzten 
Aufzeichnungsbereiches riihrt von den Obertonen (Formanten) her 
und erméglicht die Abgrenzung von Vokalen und Konsonanten. 
Stimmlose Laute haben keinen Grundton und erscheinen daher wie 
Pausen als von oben nach unten durchgehende Linien. 

Scharfe Aufzeichnungen ergeben sich indessen nur, wenn bei 
der Tonaufnahme geniigende Sorgfalt aufgewandt wird. Insbeson- 
dere ist es notwendig, die Aufnahmen mit einem guten dynamischen 
oder Kondensator-Mikrophon in einem von Nebengerauschen 


* Griitzmacher, M. und W. Lottermoser: Akust. Z. 2, 1937, S. 242; Kallenbach, W.: 
Beihefte zur Acustica 1951, S. AB 37. 


8* Phonetica, Vol. 7, No. 2/3, 1961 
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moglichst freien, schallgedampften Raum vorzunehmen. Dabei ist 
auf eine gute Aussteuerung des Bandes zu achten, damit das Grund- 
rauschen des Bandes méglichst ohne Wirkung bleibt. In den Abbil- 
dungen 5 bis 7 ist die Wirkung auf die Tonhéhenaufzeichnung 
dargestellt, die sich ergibt, wenn diese MaBnahmen nicht geniigend 
beachtet werden. 

Die haufigste Stérungsquelle sind Brummspannungen durch 
Einstreuungen aus dem Leitungsnetz. Sie entstehen leicht bei lan- 
geren, hochohmigen Mikrophonleitungen, insbesondere wenn diese 
parallel zu Netzleitungen oder dicht am Netztransformator des ‘Ton- 
bandgerates vorbei gefiihrt werden. Auch eine ungentigende Sie- 
bung im Netzteil des Gerates kann Brummaufzeichnungen zur 
Folge haben. 

Die Wirkung auf die Tonhéhenaufzeichnungen ist in Abb. 5 zu 
erkennen. Hier wurde in einem Mischpult zu der Nutzaufzeichnung 
eine Brummspannung hinzugemischt, deren GroBe jeweils unter 
den Teilbildern angegeben ist. Der Bezugswert 0 dB bedeutet dabei 
den Vollaussteuerungswert, der bei der Sprachaufzeichnung erreicht 
wird, —40 dB entspricht daher 1%, —20 dB 10% Brummzusatz. Es 
ist deutlich zu erkennen, da die Brummspannung sich zunachst im 
komprimierten Oszillogramm bemerkbar macht, bei zunehmenden 
Amplituden ist sie auch in der Schallpegel- und Schalldruckkurve 
als Erhebung tiber dem Nullniveau erkennbar. Auf die Tonhéhen- 
aufzeichnung wirkt sich die Brummstérung zunachst durch eine 
Girlandenstruktur der Berandungskurve aus, die die Frequenzbe- 
stimmung erschwert. Bei zunehmendem Brummpegel treten Aus- 
reiBer in der Aufzeichnung auf, die eine Auswertung schlieBlich un- 
moéglich machen. Brummpegel von —5 dB werden in der Praxis 
zwar kaum eintreten, es soll hier jedoch deutlich zum Ausdruck ge- 
bracht werden, in welcher Form die Aufzeichnung darunter leidet. 
Werte von —15 bis -20 dB kommen dagegen gar nicht so selten vor. 
Bei diesen Pegeln ist die Qualitat, besonders an schwiacheren Stellen 
der Nutzaufzeichnung, schon erheblich gemindert. 

Abb.6 soll den Einflu8 von Rauschanteilen zeigen. Solche Sté- 
rungen treten ein, wenn der Aufnahmeraum nicht geniigend gegen 
duBere Storquellen, z.B. Verkehrsgerausche, abgeschirmt ist oder 
wenn das ‘Tonband nicht geniigend ausgesteuert wird, so daB das 
Grundrauschen des Bandes merklich in Erscheinung tritt. Zu be- 
merken ist auch, da das Rauschen mit abnehmender Bandge- 
schwindigkeit ansteigt und sich beim Ubergang von Vollspur auf 
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Abb. 5. EinfluB von Brummsto auf die Tonhdhenaufzeichnung. 
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Abb. 6. EinfluB von Rauschstérungen auf die Tonhéhenaufzeichnung. 


Halbspur um mindestens 3 dB erhéht, wie bereits oben erwihnt 
wurde, 

Bei den Teilbildern von Abb.6 wurde der Nutzaufzeichnung 
eine Rauschspannung zugemischt, die einem Rauschgenerator ent- 
nommen wurde, Da bei natiirlichen Rauschst6rungen und auch im 
Bandrauschen die tieffrequenten Anteile gegeniiber den hohen 
starker enthalten sind, wurde die Rauschspannung noch mit einem 
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Filter bewertet, welches die tiefen Frequenzen starker durchlaBt als 
die hohen («|/.) = Gang»). Als Bezugswert 0 dB dient wiederum der 
Vollaussteuerungswert der Nutzaufzeichnung. Der Einflu® des 
Rauschens zeigt sich zunachst in der Unruhe der Nullinie in den 
Sprechpausen, dann auch in den unregelmaBigen Schwankungen 
des Schallpegels und der Schalldruckkurve. Bei starkem Rauschen 
ist Nutz- und Stéraufzeichnung nicht mehr zu trennen. In der Ton- 
héhenaufzeichnung ergibt sich mit zunehmendem Storgerausch 
eine Ausfransung der Berandungskurve, die die Frequenzbestim- 
mung erschwert und schlieBlich unméglich macht. Am SchluB ist 
die Aufzeichnung vollig «verregnet». 

Als letztes soll in Abb.7 noch die Wirkung des Nachhalls und 
eines zu groBen Mikrophonabstandes vom Sprecher dargestellt 
werden. Die Teilbilder wurden so gewonnen, dafB die urspriingliche 
Bandaufnahme, der die Abb. 4 entspricht, iiber einen Lautsprecher 
in einem etwa 20 m? groBen méblierten Laboratoriumsraum ab- 
gespielt wurde, der weder Gardinen noch sonstige schallschluckende 
Verkleidungen enthielt. Vor dem Lautsprecher wurde nun das 
Mikrophon in verschiedenen Abstaénden a aufgestellt und das 
Klangbild erneut auf Tonband aufgenommen. Aus diesen Aufnah- 
men wurden die Teilbilder von Abb. 7 gewonnen. 

Es muB betont werden, daB auch bei kiirzestem Mikrophon- 
abstand (0,25 m) schon mit gewissen Verzerrungen durch den 
Frequenzgang des Lautsprechers zu rechnen ist. Dennoch ist bei 
dem Oszillogramm, der Pegel- und Schalldruckkurve zunachst 
noch eine weitgehende Ahnlichkeit mit Abb.4 zu erkennen. Mit 
zunehmendem Mikrophonabstand verandern sich die Kurven unter 
dem EinfluB des Nachhalls und der Raumresonanzen immer starker, 
so daB schon bei 2 m Abstand erhebliche Verzerrungen eintreten. 
Ferner ist zu erkennen, daB die Laute vor den Plosivlauten nicht 
mehr wie in Abb.4 ziemlich plotzlich abbrechen, sondern infolge 
des Nachhalls einen Schlauch hinter sich herziehen, der sich expo- 
nentiell verengt. In der Tonhéhenaufzeichnung zeigt sich schon bei 
kurzem Abstand eine deutliche Veranderung des Modulationscha- 
rakters durch den Nachhall, wobei allerdings auch die Frequenz- 
kurve des Lautsprechers von EinfluB ist. Mit zunehmendem Ab- 
stand franst auch hier die Berandungskurve aus, so dafi die Aus- 
wertung erschwert wird. Die Zerstérung der Information ist jedoch 
nicht so stark wie bei den Brumm- und Rauschstorungen. 

Die Dampfung des Aufnahmeraumes durch Gardinen, Teppiche 


106 Kallenbach und Schroeder, Zur Technik der 


Bie be ie 


a = 0)25 mi a=0,5m 


a 
wl 


tea 


i H | fi 


2 ==. sade aaa 


Abb. 7, EinfluB des Mikrophonabstandes a von der Schallquelle auf die 
Tonhéhenaufzeichnung. 


oder Polstermébel ist vor allem dann von Bedeutung, wenn aus be- 
sonderen Griinden, etwa um die Versuchsperson nicht zu beein- 
flussen, das Mikrophon versteckt in gréBerem Abstand aufgestellt 
werden muB. 

Zum SchluB kann zusammenfassend gesagt werden, daB bei 
dem heutigen Stande der Technik hohen Anspriichen geniigende 
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Aufnahmen bei 19 cm/s (Halb- oder Vollspur) ausgefiihrt werden 
konnen. Auch mit 9,5 cm/s Bandgeschwindigkeit lassen sich noch 
in vielen Fallen brauchbare Aufnahmen erzielen, wenngleich die 
oben geschilderten Gefahren beim Bandaustausch schon betricht- 
lich ansteigen. Bei der Auswahl der Gerate sollte man seine Auf- 
merksamkeit besonders auf die «semiprofessionellen» richten, die 
vielfach nahezu Studioqualitat besitzen und im Preise nicht allzu 
weit tiber den Heimgeraten liegen. Ebenso wichtig wie das Auf- 
nahmegerat selbst ist jedoch der Aufnahmeraum und die Beachtung 
der geschilderten MaBnahmen bei der Aufnahme. 


Kusammenfassung 


Die Frage, welches Tonbandgerat und welche Bandgeschwin- 
digkeit bei Sprachuntersuchungen zu wahlen sind, hangt von der 
gestellten Aufgabe ab. Es wird gezeigt, worin die Qualitaétsminde- 
rung bei Verwendung von Heimgeraten mit kleiner Bandgeschwin- 
digkeit besteht. Sie liegt in der Zunahme der Pegelschwankungen, 
besonders bei hohen Frequenzen sowie in der Schwierigkeit, beim 
Austausch von Bandern den Spaltschiefstellungseffekt zu vermeiden. 
Sollen von Bandaufnahmen Tonhohenaufzeichnungen angefertigt 
werden, so ist bei der Aufnahme auf Brummfreiheit, Vermeidung 
von Storgerauschen und Nachhall und geniigende Bandaussteuerung 
zu achten. Die Wirkung dieser Einfliisse wird anhand von Probe- 
aufzeichnungen dargestellt. Fiir hochwertige Aufnahmen wird die 
Bandgeschwindigkeit 19 cm/s und die Verwendung «semiprofes- 
sioneller» Gerate empfohlen. 


Tape Recording Techniques in Voice Research 


Summary 


The question of which tape recorder and which tape speed to choose for voice 
research depends on the intended requirement in this field. It is shown that a reduction 
of quality results from the use of “home” type equipment having a low tape speed. This 
reduction of quality is due to large level variations, especially in the high-frequency 
range and the difficulty in avoiding the effect of misalignment of the gap when changing 
tapes. If it is required to extract precise frequency levels from the tape, it is necessary 
to provide hum suppression, eliminate background noises, and reverberation, and 
maintain an adequate modulation level. The effect of these factors is represented on test 
recordings. For high-quality recordings a tape speed of 19 cm/sec and the use of sem1- 
professional apparatus is recommended. 
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Remarques sur la technique d’ enregistrement d’ études phonétiques 


Résumé 


Le probléme du choix d’un type de magnétophone et d’une vitesse d’enregistre- 
ment se pose, lors d’études phonétiques, en fonction du sujet. I] est montré qu’une 
diminution de qualité résulte de l'utilisation de magnétophones dits d’amateur, dont la 
vitesse d’enregistrement est faible. Cette diminution de qualité est conditionnée par de 
plus grandes variations du niveau sonore, notamment dans le domaine des hautes 
fréquences, ainsi que par la difficulté d’éviter l’ «effet de décalage a l’interstice» lors du 
changement de bande. S’il s’agit de procéder a des analyses de hauteur du son, il faut 
veiller 4 ce que les ronflements et bruits parasites, ainsi que les phénomeénes de réver- 
bération soient éliminés. En outre, il faut maintenir un niveau d’enregistrement constant. 
Les effets de ces facteurs sont représentés a l’aide d’enregistrements d’essai. Si l'on veut 
effectuer des enregistrements de haute qualité, il conviendra d’utiliser des appareils 
«semi-professionnels» et la vitesse de 19 cm/sec. 


Adresse der Autoren: Dr. Werner Kallenbach und Dipl.-Ing. Hans-Jiirgen Schroeder, Physikalisch- 
Technische Bundesanstalt, Bundesallee 100, Braunschweig (Deutschland) 


Phonetica 7: 109-113 (1961). 


Sur le probléme de la syllabe 
Réponse a M. B. Hala 


Par A. Rosetti, Bucarest 


M. Hdla, dans un article publié ici-méme?, se propose de 
combattre notre maniére d’envisager la nature de la syllabe. 

Nous allons examiner successivement les arguments de M. Hdla, 
qui, a notre avis, ne sont pas de nature a ruiner notre explication. 

Mais il convient, tout d’abord, de rappeler que notre argumen- 
tation est en partie fondée sur les recherches de phonéticiens qui 
font autorité, tels que R. H. Stetson, Ch. F. Hockett, E. Haugen, 
N. I. Zinkin et autres, ou de linguistes tels que K. Biihler, chose 
que M. Hala passe sous silence. Nos résultats coincident avec les 
résultats des recherches des savants cités ci-dessus. M. Hala affirme 
avec force que notre formule «il n’y a pas de syllabe sans air» est 
fausse, mais il oublie de réfuter les résultats des recherches de tous 
les autres phonéticiens, qui sont fondées, cependant, sur une masse 
de faits. 

Qu’y-a-t-il de fautif, dans les expériences, analyses et jugements 
cités dans notre mémoire sur la syllabe (paru en 1959) et qui fait 
objet des remarques de M. Hdila, voila, sans doute, ce que M. Hdla 
aurait du nous montrer tout d’abord. 

Au lieu de la réfutation attendue, M. Hédila se livre 4 une série 
de remarques qui évitent le sujet essentiel de la controverse et que 
nous allons examiner maintenant. 

lo M. Hala s’éléve contre notre classification de «phonémes a 
air» et «phonémes sans air». Pour nous convaincre, il prend comme 
exemple la consonne qui, a son avis, fait partie des phonémes a air, 
puisque il y a une «petite portion d’air s’échappant a la détente» 
de cette consonne (p. 160). 


110 Rosetti, Sur le probléme de la syllabe 


Cette remarque doit-elle étre prise au sérieux? 

Car qui pourrait nier que les consonnes occlusives sont des 
phonémes fermés, en regard des voyelles ou des consonnes non- 
occlusives? 

20 M. Hadla critique notre classification des phonémes en 
«phonémes a air», ou ouverts, opposés aux «phonémes sans air», 
ou fermés. II cite 4 ce propos une remarque critique de M. F. Hinize, 
4 laquelle nous avons répondu ici-méme?°, en montrant que les 
semi-voyelles ou les semi-consonnes qui, du point de vue de leur 
fonction, jouent dans la syllabe le rdle de consonnes, sont en méme 
temps des phonémes ouverts, du point de vue acoustico-articulatoire, 
et des phonémes fermés, du point de vue fonctionnel. 

3° Si les phonémes m, n, 1, 7, 5, 5, f peuvent former syllabe, 
pourquoi x, h, v, z, 3, j, w ne forment pas syllabe, objecte M. Hala 
(p. 162). 

Cette objection n’est cependant pas de nature, a renverser 
notre théorie. Tout d’abord parce que la langue n’emploie pas tous 
les moyens dont elle dispose, et il y a maintes combinaisons pos- 
sibles de phonémes qui sont restées sans emploi*. Et ensuite parce 
qu'il y a des langues non-indo-européennes qui forment des syllabes 
avec ces éléments. Ainsi, en Bella Coola (Amérique du nord), 
langue sans voyelles, il y a des mots formés par des syllabes de la 
structure suivante: ¢/-k’w-t-xw «make it big!», k’-x-t-c «I looked» 
ou bien s-k'l-xk-x-c «I’m getting cold»**, 

M. Hédla nie la valeur démonstrative des syllabes telles que 
fr. pst, cht, etc.***. «En réalité», affirme M. Héla, «il ne s’agit pas 
ici de syllabes, mais tout simplement de bruits servant de signaux 
expressifs et que l’on cherche a traduire, dans la langue écrite, par 
des lettres correspondant plus ou moins a l’effet acoustique des dits 
signaux. Mais ces derniers, connus en grammaire sous le nom 
Winterjections ou d’onomatopées, relévent d’autres lois que les mots 
normaux» (p. 162). 

Nous ne partageons pas ce point de vue. 


* Voir Rosetti®, p. 26. 

** Voir Hockett4, p. 57. 
*** M. Hala (p. 162) se demande «pourquoi l’s devrait-il former syllabe p. ex. dans 
le tchéque pst et non pas dans le tchéque sto?». Parce que s n’est pas toujours syllabique. 


C’est ce qui arrive, par exemple, pour / tchéque, qui est syllabique dans wlk «loup» et 
non-syllabique dans vliv «influence». 
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Tout dabord, parce que les onomatopées, comme |’a montré 
Maurice Grammont, imitent d’une maniére approximative les sons na- 
turels, qui n’appartiennent pas a la langue parlée, parce qu’ils font 
partie d’une série différente*. 

Les onomatopées sont donc faites avec des sons parlés. C’est pourquoi 
les onomatopées rentrent, pour la plupart, dans le vocabulaire de 
la langue donnée et qu’elles deviennent des mots de la dite langue. 
(Le fait que les dictionnaires enregistrent ces formations parmi les 
mots du vocabulaire de chaque langue, confirme cet argument.) 

Il est facile d’apporter des preuves 4 l’appui de cette affirma- 
tion, qui renverse la thése de M. Hédila. 

Prenons, par exemple, les «Lautbilder» des langues négro- 
africaines**, qui forment des mots de la langue courante. Ainsi 
héhé-héhé, en ewe, «beschreibt einen Korpulenten, etwas schwerfallig 
und schwabbelig einhergehenden Menschen», gblugblugblu «ist der 
Gang des stier und steif vor sich hingehenden Biiffels oder eines 
entsprechend gebauten Menschen», etc. D. Westermann a réuni un 
grand nombre de mots ainsi formés (op. cit., p. 166 et s., 194 et s.). 

Le roumain offre de nombreux exemples similaires. Des verbes 
tels que roum. a bijbit «chercher a tatons», a@ mormdi «murmurer», 
etc. sont d’origine onomatopéique: ici aussi, la langue a incorporé 
les onomatopées dans son vocabulaire courant***. 

4° M Hadla s’efforce d’éliminer notre argument fondé sur la 
voix chuchotée, émission phonatoire qui connait la division syl- 
labique, malgré l’absence de la sonorité laryngienne. 

M. Haéla s’accroche, tout d’abord, 4 une question de termino- 
logie: il n’y a pas de «voix» sans «son» nout dit-il (p. 165), et 
personne ne le contredira la-dessus. Disons, cependant, que le terme 
de «voix chuchotée» est d’un emploi courant. Voici quelques 
citations 4 l’appui de notre affirmation: «la voix chuchotée différe de 


* Voir Grammont}, p. 97 et s.; Grammont?, p. 377 et s. 

** Westermann, «Ein Lautbild», nous dit l’auteur, «ist ein Wort, das im Emp- 
finden der Sprachgemeinschaft eine lautliche Reaktion auf einen empfangenen Sinnes- 
eindruck darstellt, ein Wort also, das einem inneren Gefiihl einen unmittelbaren, lautlich 
wie sprachmelodisch angemessenen Ausdruck gibt» (p. 159). 

*** Voir Puscariu?, p. 105. On consultera avec profit exposé de l’auteur, Les ono- 
matopées de la langue roumaine, dans Etudes de linguistique roumaine®. Le grand nombre de 
mots, dérivés d’onomatopées, en roumain, est illustré par l’exemple suivant: dérivés de 
bizd «mouche, abeille»: bézti (béztire, biztit, btztiturd, biztiald, btztitor), béztitoare, bizdldu, 


bézalnic, -d, bizdu (p. 349-350). 
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la voix haute»*; «si la partie de la glotte qui se trouve entre les 
aryténoides reste ouverte en laissant passer lair, on obtient une 
voix chuchotée**; chuche ou voix chuchée: émission de voix... La voix 
chuchée se rapproche ainsi plutét de la voix murmurée, que de la 
voix chuchotée***, 

Mais peut-on nier l’existence réelle de la syllabe dans cette 
émission non-sonore? Comme la chose est indéniable, M. Hala s’en 
tire en nous disant que le chuchotement est un langage « transposé 
4 un autre plan de la réalisation communicative» (p. 166), ce qui 
nous plonge dans le vague (quel plan?!) et laisse le probléme ouvert. 

Nous considérons, par conséquent, que notre argument est 
pleinement valable: si la sonorité laryngienne, modifiée dans les 
cavités sus-glottiques et buccale n’est pas essentielle pour la for- 
mation de la syllabe, il reste que les efforts de M. Hdla pour ruiner 
la théorie de la syllabe fondée sur la présence de l’air phonateur, 
sont restés vains. 

Que dire, enfin, de la «définition d’ordre acoustique» de la 
syllabe, proposée par M. Hdla, que nous reproduisons ici: «la 
syllabe serait l’élément fondamental de la parole produit par chaque 
mise en phonation (résonnement, retentissement) isolée de la voix 
laryngienne modifiée au passage des cavités sus-glottiques et notam- 
ment de la cavité buccale sous forme de diverses sonantes (voyelles, 
diphtongues, consonnes appelées par moi «sonores»: liquides et 
nasales»; p. 164), si ce n’est que cette définition est confuse et 
qu’elle est formulée en des termes impropres. Car qu’est-ce qu’une 
émission isolée (quand on sait que les sons du langage, dans la chaine 
parlée, se suivent d’une maniére ininterrompue) ; et qu’est-ce, en- 
core, que la «voix laryngienne... modifiée... sous forme de diverses 
sonantes», etc. ? 

Convenons-en, la tentative de M. Héla de donner une définition 
de la syllabe acoustique a échoué. 


Résumé 


En réponse a larticle dans lequel M. B. Hala s’est proposé de 
ruiner notre théorie de la syllabe, fondée sur la présence de l’air, M. 
Hala donne une définition acoustique confuse de la syllabe, quel’on 


* Voir Rousselot', p. 468: «Voix chuchotée». 
** Voir Malmberg®, p. 22, et aussi fig. 20, C, p. 22. 
*** Voir Marouzeau®, p. 53. 
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ne saurait retenir. M. Hdla omet de réfuter les expériences et argu- 
ments des phonéticiens qui ont étudié le cété physiologique du 
probléme. Il est montré, ensuite, que la tentative de M. Hdla de 
réfuter nos arguments concernant les phonémes ouverts et fermés, 
les onomatopées et le chuchotement a échoué. 


Kum Problem der Silbe 


Kusammenfassung 


Bei dem Versuch von B. Hala, die Silbentheorie des Verfassers, die auf der Betei- 
ligung der Luft beruht, zu Fall zu bringen, wird eine verworrene akustische Definition 
der Silbe vorgelegt, die nicht aufrechtzuerhalten ist. Hala unterlaBt es, die Experimente 
und Argumente der Phonetiker zu widerlegen, die die physiologische Seite des Problems 
untersuchten. Es wird dann gezeigt, daB der Versuch Halas gescheitert ist, die Argu- 
mente des Verfassers im Hinblick auf die offenen und geschlossenen Phoneme, die 
Onomatopoetica und das Fliistern zu entkraften. 


On the Problem of the Syllable 


Summary 


Intending to fell the author’s theory of syllables based on the presence of air, 
B. Hala presented a confused acoustical definition of the syllable, which is not tenable. 
Hala omitted to disprove the experiments and arguments of phoneticians having studied 
the physiological view of the problem. It is shown that Hala failed in refuting the 
author’s arguments concerning open and closed phonemes, onomatopoetica, and 
whisper. 
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From the Communication Sciences Laboratory, University of Michigan, Ann Arbor, Mich. 


Some Acoustic Correlates of Accent in Serbo-Croatian 


By Ise LeEnIsTE 
1. Introduction 


The Serbo-Croatian standard language is characterized by the 
presence of features from three partially overlapping prosodic sys- 
tems. Contrasts between long and short vowels may occur in both 
accented and unaccented position; quantity thus appears as an in- 
dependent prosodic system in the standard language. Both stress and 
pitch are involved in the accentual patterns, which are usually de- 
scribed as rising and falling. A combination of these with the two 
vowel quantities yields a system comprising four accent types: short 
falling, long falling, short rising, and long rising. There are im- 
portant restrictions in the distribution of the four accent types. All 
monosyllabic words have falling accents; in polysyllabic words, 
falling accents are restricted to occurrence on the first syllable, 
whereas rising accents may occur on any syllable except the last. 

In the dialect spoken by the educated population of Belgrade, 
a change in the distribution of these accents appears to have taken 
place during the past two or three decades. Meillet and Vaillant} note 
that the two short accents tend to merge, or rather that the short 
rising accent appears to be assimilated to the short falling accent. 
Belié? states that the short rising tone in two-syllable words with a 
short second syllable is often replaced by the short falling tone. The 
contrast is preserved in words with a long vowel in the second sylla- 
ble. Another indication of the instability of the short rising accent is 
the fact that a long rising accent is often substituted for the short 
rising accent. 


2. Previous phonetic descriptions 


A survey of both traditional and experimental phonetic studies 
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of the Serbo-Croatian accents is given by Pollok®. According to 
publication date, the most recent of these is a paper by Appel*. How- 
ever, the work reported by Appel was done in 1927, and instrumental 
methods have been greatly refined since then. More recent instru- 
mental work on Serbo-Croatian phonetics is described in a paper by 
Kostié*. This paper emphasizes intensity measurements, and deals 
only with the two short accents. It appears, therefore, that there 
exists no up-to-date experimental phonetic description of both the 
fundamental frequency contours and intensity patterns of the four 
accent types of standard Serbo-Croatian. 

The phonetic realization of the accents is usually briefly touched 
upon in papers dealing with the phonology of Serbo-Croatian. In 
phonemically oriented papers, there appears to be a tendency to 
evaluate the phonetic observations by assigning primacy to either 
the intensity (stress) or fundamental frequency (pitch) features. The 
description offered by Liidtke* may be considered representative of 
the first point of view. The description given by Resetar? is based 
purely on pitch features. Meillet and Vaillant® state explicitly that 
pitch features rather than intensity have to be considered significant. 
In the phonetic description contained in Beli¢’s work ®, both intensity 
and pitch features are considered, neither being given preference 
over the other. Agreement does not seem to exist either about the 
phonetic nature of the accentual phenomena involved, nor about 
their possible phonemic interpretation. Thus there appears to be 
some justification for a new attempt to establish the phonetic 
characteristics of the four accent types by the relatively more objec- 
tive techniques of experimental phonetics. 


3. The present investigation 


The study reported here was undertaken with the purpose of 
providing an acoustic-phonetic description of the accent types used 
by speakers of the dialect of Belgrade. 


3.1. Informants, material, and method 


The speech of three informants?° was analyzed for the study. 
All three informants belong to the younger generation and have 
received their education — from elementary school through the uni- 
versity — in Belgrade. Of the informants, DmK recorded a set of 
words incorporating minimal tonal contrasts, short sentences con- 
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taining the words included in the contrastive pairs, and a longer 
connected text. DK recorded a set of 100 frame sentences. The 
100 words used in the frame contained 29 words with short falling 
accent, 41 words with long falling accent, 13 words with short rising 
accent, and 17 words with long rising accent. VJ recorded a set of 
sentences, examples of poetry, and a short continuous text. In ad- 
dition, DK listened to the tapes recorded by DmK, and VJ listened 
to the tapes of the two other informants, identifying the words and 
offering further comments. The data thus consist of both actual 
recordings and listener judgments about the test material. 

The recordings were made in the Communication Sciences 
Laboratory of The University of Michigan, using a high quality 
tape recording system. The tapes were analyzed by spectrographic 
techniques, using the Model D sound spectrograph available at the 
Laboratory. Four inch narrow-band spectrograms (with a 45 cps 
filter) and two inch broad-band spectrograms (with a 300 cps filter) 
were made of the test utterances. The tapes were further processed 
through a speech power measuring circuit developed at the Labora- 
tory 11, Measurements made from these instrumental analyses consti- 
tute the basis from which the patterns were derived that are de- 
scribed in this paper. Since the material recorded by DK lends it- 
self best to quantitative treatment, the main part of the paper will 
report measurements made from the speech of this informant. 

The list of words recorded by DK was compiled to include at 
least one occurrence of each vowel and tone combination. The 
100 words were pronounced in the frame ‘“‘Fraza .. . je napisana 
na tabli’”. The frame was selected such that words belonging to 
different categories and occurring in different inflectional forms 
might be commuted in the same slot. When the recording was made, 
a randomized list was given to the informant, containing the Serbian 
words in simple transliteration, and an English translation indicating 
the desired form. Informant DK selected the Serbian form that 
corresponded, in his usage, to the English word. The list of words is 
given in the Appendix. 

The hundred repetitions of the frame sentence offered an oppor- 
tunity both to analyze 100 different words in the commutation slot, 
and to study 100 occurrences of the words constituting the frame. 
The 100 occurrences of the word fréza were also analyzed; it is thus 
possible to make some generalizations about the range of variations 
possible within a number of repetitions of the same pattern. 
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Table I 


Fundamental Frequency Patterns in Test Words (Frequency in cycles per second) 


First syllable Second syllable Third syllable 
Peak occurs 
at % of 
total 
Test word type No. Beg. Peak End _ duration No. Beg. End No. Beg. End 


Short falling (29) 


Monosyllabic I 122" 127" 109 46%, 
(-3r) 
Disyllabic ; Pee Uae) 127. Pal 27.09% oy 93 
~Ir) (—5 lar.) 
Trisyllabic A WSS 133 129" 70% 2h Gaeel 05 4 95 92 
Long falling (41) 
Monosyllabic 2 122 130 39 2407, 
(-5r) 
Disyllabic 20 Jet269) 139 94, 5309% 20 87 
(-Ir) (-1 lar.) 
Short rising (13) 
Disyllabic STS M27 124" 36e5 Smt 96 
(-Ir) (-1 lar.) 
Trisyllabic elo 22 Se LP20 se Boo, Sea NGS 6 97 
(-4r) (-1 lar.) 
Long rising (17) 
Disyllabic Gey G10 ee P2229 7S 16 Set? 96 
(-Ir) 
Trisyllabic Ir ee L300 1 LO 100 
100 occurrences 
of fraza LOC 10L 9) 123g uiIZI eS O19, 100) elie w Wo 


3.2. Fundamental frequency patterns 


Table I contains information about the fundamental frequency 
patterns observed on the 100 words used in the frame, and the 
100 occurrences of the first word in the frame. The following 
measurements are included in the table. The fundamental frequency 
on the first syllable of the test word was measured at the beginning 
of the vowel, at the peak of the fundamental frequency contour, and 
at the end of the vowel. In words of more than one syllable, the 
fundamental frequency was also measured on the successive syllables. 
The moment in time at which the peak occurred was ascertained 
and expressed in terms of per cent of the total duration of the vowel. 
Differences in the duration of the syllable nuclei could be compen- 
sated for in this manner. The values in the table refer to averages 
computed for the number of words in each classification that were 
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contained in the set of analyzed words. The second column indicates 
the number of words included in each row. The fundamental fre- 
quency on words with /r/ as syllable nucleus was not included in the 
averages for the first syllable, but the second syllables of such words 
were included in computing the averages for those syllables. The 
syllable nucleus /r/ presents special problems in measurement; this 
syllable nucleus will be treated separately in a later section. On the 
other hand, the fundamental frequency was not measured on those 
unstressed syllables where the speaker used laryngealized voice 
quality (i.e. where the pitch dropped so low that the mode of 
phonation changed and the vibrations became irregular). 

The patterns occurring on long vowels will be considered first. 
The long falling pattern was observed on 21 monosyllabic words and 
20 disyllabic words. In these test words, the pattern on the mono- 
syllabic words was practically identical with the pattern on the first 
syllable of disyllabic words. On the average, the fundamental fre- 
quency reached a peak during the first third of the accented vowel 
in both cases; after attaining peak value, the fundamental frequency 
was falling throughout the syllable. An inspection of the spectro- 
grams indicates that the beginning of the fundamental frequency 
movement on the test words was conditioned by the phonetic charac- 
ter of the preceding consonant: the fundamental frequency started 
high after a voiceless sound, but rose from a lower frequency value 
after a voiced sound”. Thus the beginning value of the contour is 
irrelevant. The total fall in frequency occurred on the syllable bear- 
ing the accent; the second syllable of disyllabic words had a steady 
fundamental frequency at approximately the low end of the speak- 
er’s voice range, and there was one instance of laryngealization. The 
ratio of the frequencies between peak and terminal frequency 
corresponded approximately to a musical fifth. 

The rising pattern on long vowels was observed on 16 disyllabic 
words, | trisyllabic word, and on 100 occurrences of the word fraza 
as the first word of the frame sentence. The words showed a con- 
sistently rising pattern of fundamental frequency, starting at a fre- 
quency considerably lower than the starting frequency in words with 
the long falling accent, and reaching their peak immediately before 
the consonant. On the average, the rise involved an interval smaller 
than a minor third. The second syllable started at a frequency close 
to the terminal frequency of the first syllable, and then dropped 
approximately a major third. The drop in the second syllable of 
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Jraza was approximately equal to a minor third. The difference by 
one semitone is attributable to the fact that the first word in the 
sentence was subjected to a rising intonation which reached its 
peak in the test word. The single trisyllabic word in the set had a 
fundamental frequency pattern on its second syllable that differed 
from the second syllable patterns of disyllabic words, and resembled 
one that occurred on five trisyllabic words with short rising tone. 
On these words, the second syllable started at a frequency noticeably 
higher than the terminal frequency of the first syllable, and the fall 
was distributed over the second and the third syllables. This pattern 
will be described in more detail in connection with the short rising 
patterns. 

Figure 1 contains reproductions of narrow-band spectrograms 
of six utterances by informant DK, illustrating long rising and long 
falling patterns. On the left hand side are spectrograms of three 
words with long falling accent, preceded by the word frdéza. On the 
right hand side are three words with long rising accent. The tenth 
harmonic has been traced with white paint on the spectrograms, 
and provides a visual representation of the fundamental frequency 
movement. In cases where the tenth harmonic became too weak to 
be followed, the fifth harmonic has been traced with a dotted line. 
It is apparent that the fundamental frequency started high in the 
word sid, where the stressed vowel was preceded by a voiceless 
fricative, but that it started at a lower frequency and reached a peak 
near the beginning of the vowel in the words 66) and Lika. The 
segment corresponding to /j/ in 56; and the vowel of the second 
syllable in Lika were laryngealized, and the 45 cps filter of the spec- 
trograph was not able to resolve the sound wave into separate 
harmonic components. The words with long rising accent show the 
characteristic distribution of the fundamental frequency pattern 
over the two syllables. 

The falling pattern on short vowels was observed in 11 mono- 
syllabic words, 14 disyllabic words, and 4 trisyllabic words. ‘The 
short falling pattern differed from the long falling pattern in the 
distribution of the fundamental frequency contour over the test 
word. In monosyllabic words with the short falling pattern, the peak 
in the fundamental frequency was reached approximately in the 
middle of the test word, and the drop in frequency was somewhat 
less than a minor third. In disyllabic words, the peak was reached 
toward the end of the stressed vowel (approximately 7% to 3/4 of the 
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duration), and the fall took place on the second syllable, although 
the frequency at the beginning of the second syllable was lower than 
in words with long rising accent, which had a similar fall on the 
second syllable. In trisyllabic words, the drop in frequency was 
distributed over the second and third syllables. There were five 
instances of laryngealization in the second syllable of disyllabic 
words. 

The words in the next category, the short rising accent, were 
selected to include a number of instances where according to the 
handbooks a short rising accent should occur!’. The informant was 
not instructed to produce a word with short rising accent, but rather 
to give the Serbian equivalent of an English word given in the form 
in which the standard Serbo-Croatian equivalent should exhibit a 
short rising accent. An analysis of these words, as well as further 
observations made with connected speech of all informants, suggests 
that there is very little reason to treat the two-syllable words in this 
group as different from the words included in the short falling cate- 
gory. The fundamental frequency pattern occurring on 8 disyllabic 
words included in this group was very similar to that occurring on 
the disyllabic words with short falling accent. On the average, the 
fundamental frequency reached its peak slightly later in the first 
syllable of disyllabic words with short rising accent (at 86% of the 
total duration of the stressed syllable nucleus) than in disyllabic 
words classified as belonging to the short falling category (at 70% 
of the total duration). The second syllable of the words with short 
rising accent began at a slightly higher fundamental frequency than 
the second syllable of the words with short falling accent; however, 
there was also one instance of laryngealization in the second syllable 
of words classified as having a short rising accent. 

The 5 trisyllabic words where a short rising accent was expected 
differed more markedly from corresponding words with a short 
falling accent. The fundamental frequency on the second syllable 
of the trisyllabic words with short rising accent started higher than 
the peak in the first syllable, and dropped only slightly during the 
second syllable. The third syllable was produced at a low frequency, 
and there was one instance of laryngealization in the third syllable. 
The conclusion to be drawn from these limited data is that no 
difference exists in the fundamental frequency patterns of disyllabic 
words with short rising and short falling accent, but that there is a 
difference associated with words of three syllables. 
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Fig.1. Narrow-band spectrograms of six utterances by informant DK. The tenth 
harmonic has been traced with white paint; on some of the spectrograms, the fifth 
harmonic has been indicated with a dotted line. 


Figure 2 illustrates the fundamental frequency patterns associ- 
ated with words classified as having short rising and short falling 
accents. Narrow-band spectrograms, broad-band spectrograms, and 
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continuous amplitude displays of four utterances by informant DK 
are presented. The fundamental frequency contours on the first 
syllables of the two words mika and kika are identical, except for the 
difference caused by the different initial consonants. The second 
syllable of miika contains a laryngealized vowel, and none of the 
harmonics could be traced; the fundamental frequency is falling 
on the second syllable of kika. The continuous amplitude display 
indicates that there is a considerable difference in the acoustic 
intensity of the /a/ in the second syllables of these two words; this 
difference will be discussed in a later section. The trisyllabic word 
godina, with a short falling accent on the first syllable, has a rising- 
falling fundamental frequency movement on the stressed syllable 
and falling fundamental frequency on the second and third syllables. 
The fundamental frequency on the phrase fvati se, with a short rising 
accent on the first syllable, is rising through the first syllable and the 
first part of the second syllable; after a peak in the second syllable, 
the fundamental frequency falls during the rest of the phrase. 


3.3. Intensity patterns 


Table II contains intensity measurements taken from the test 
words. The values were read from the output of a speech power 
measuring circuit, which was displayed on a Sanborn two-channel 
graphic recorder, and are expressed in decibels on an arbitrary scale 
reading from 0 to 50 db. The intensity values were measured at the 
beginning of the stressed vowel, at the point where peak intensity 
was reached, and at the end of the stressed vowel. The peak intensi- 
ties on second and third syllables were also measured. Intensity 
patterns on words containing /r/ as syllable nucleus are presented 
separately (in table V); however, the second and third syllables of 
such words are also included in table II. Although the fundamental 
frequencies of laryngealized vowels were not included in the fre- 
quency table, the acoustic intensity of such vowels was averaged 
over the different peaks corresponding to the slow flaps of the vocal 
folds, and the corresponding measurements are included in the 
intensity table. A separate tabulation has been made of the ampli- 
tudes of second syllables with /a/ as the syllable nucleus. Direct 
comparison between the intensities of the second syllables of words 
with different accentual patterns is thus possible. 

The intensity patterns associated with long falling and long 
rising accents will be considered first. The intensity pattern on the 
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Table II 


Intensity Patterns in Test Words (Intensity in decibels) 
eee Oe ee 


First syllable Second syllable Third syllable 
Peak occurs 
at % of All vowels Ja] 
total 
Test word type No. Beg. Peak End duration No. Peak No. Peak No. Peak 


NN —————— 


Short falling (29) 


Monosyllabic 11 28.0 42.0 33.0 58% 
(-3r) 
Disyllabic 14 23.7 40.8 29.5 46% 153207 ee LO Ss.) 
lr) 
Trisyllabic 4 29.8 43.3 31.8 50% Le uiiles) 4 31.0 
Long falling (41) 
Monosyllabic 21 28.0 40.1 25.5 27% 
(Sr) 
Disyllabic 20) 20:9) "41:2 S252 55 20 33:5 lay 34-4 
(-Ir) 
Short rising (13) 
Disyllabic S22 S) 4s] 320 Aso, 8939.45, 39.6 
(-Ir) 
Trisyllabic 3p 33.0 42.0) 735.0 58%, 5 40.6 3 41.3 Dee 2veG 
(-4r) 
Long rising (17) 
Disyllabic Sae26 3 A0lie 32:0 G59, pe teat) 7h aa) 
Single peak 
Disyllabic (1. pk. 7 40.9 28% 
Two peaks valley PALL SOO RG GPE ata TOS. Ue 59.0 
2. pk.) 41.0 OTe 
Disyllabic Ir 1390 39.0 
Trisyllabic Ir 1 iSO SSH Ae) L320 
100 occurrences of fraza 
Single peak BEN PURSY GALEN Gy TES Se SWke) eh Sys! 
Two peaks (1. pk. 46 41.1 MI 
valley 28.3 39:5 34.9) 6295 AGUS 120m Sal 
2. pk.) 412 83% 


words with long falling accent was characterized by a single in- 
tensity peak (in 95% of the test words) occurring at approximately 
¥, of the duration of the vowel, or in other words, coinciding with 
the pitch peak. The drop in intensity from the peak to the end of the 
stressed vowel was approximately 15 db. The second syllable had an 
amplitude that was approximately 7 db lower than the peak occur- 
ring on the first syllable. While the highest intensity peak always 
occurred near the beginning of the vowel, four different patterns of 
intensity distribution over the total duration of the vowel were 
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observed. Two of these occurred with equal frequency and constitut- 
ed together 60%, of the cases. In both patterns the syllable nucleus 
appeared to consist of two segments. In one case, the first part of the 
vowel was produced at a steady intensity level for about 34°% of its 
duration, followed by a rapid decrease taking place during the 
production of the second half of the vowel. In the other case, two 
distinct intensity levels could be observed. In words exhibiting this 
type of intensity pattern, the first level had about 37° of the total 
duration, the second level approximately 22°. The difference be- 
tween the two intensity levels was approximately 4 db; the fall from 
the end of the second level to the end of the vowel was approximately 
10 db. 

In 25% of the utterances, no segmentation into two parts 
appeared possible. The vowels had a smooth intensity curve, with 
a peak in the first quarter of the duration of the vowel. 

In 5% of the utterances, two distinct intensity peaks were ob- 
served. The first peak occurred at approximately 20% of the du- 
ration, the second at 60%, of the duration. The valley between the 
two peaks occurred at 40% of the duration, and was approximately 
3 db lower in intensity than the first peak. The difference in intensity 
between the two peaks was approximately 0.5 db, the first peak 
having the greater intensity. 

The remainder of the long falling patterns involved /r/ as 
syllable nucleus. Their intensity patterns will be described in a 
separate section. 

Two different types of intensity patterns were observed on words 
with long rising accent. In approximately half of the instances, only 
one peak was observed; in the other half, two peaks appeared on the 
vowel with long rising accent. Of the 15 test words (2 words with /r/ 
as syllable nucleus are not included), 8 had a single peak on the first 
syllable, and 7 had two peaks. Of the 100 occurrences of the word 
fraza, 54 had a single peak, and 46 had two peaks. In the words with 
a single peak, this peak occurred considerably before the peak in 
fundamental frequency was reached (at 65% of the total duration 
vs. 97%, for the fundamental frequency in the test words, and at 
74% vs. 91% in the 54 occurrences of frdza with a single peak). In 
words with two peaks, the second peak occurred at approximately 
the same time when the fundamental frequency peak was reached. 
In disyllabic words with a single peak, the intensity drop from the 
peak to the end of the syllable was approximately 7 db; the second 
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syllable had an intensity that was 2-3 db lower than the peak occur- 
ring on the first syllable. In disyllabic words where two intensity 
peaks occurred during the first syllable, the first peak was reached at 
approximately 1% of the total duration, the second peak at approxi- 
mately °/19 of the duration, with a valley at approximately °/s of the 
duration of the vowel. On the average, the second peak was a frac- 
tion higher than the first peak (0.1 db); the valley between the two 
peaks had approximately 2 db less intensity than the peaks. ‘The 
second syllable was approximately 2-3 db less intense than the first 
syllable in both types of words. In one occurrence of a trisyllabic 
word, the third syllable was 5 db weaker than the second syllable. 

The words with short falling accent reached their intensity peak 
approximately in the middle of the word; the intensity dropped by 
about 10 db from the peak to the end of the stressed vowel. In 
disyllabic words, the second syllable had an intensity that was 
comparable to the intensity on the second syllable of words with 
long falling patterns; the amplitude was approximately 8 db lower 
than the amplitude of the peak on the first syllable. In the four 
trisyllabic words, the second syllable had approximately 6 db less 
amplitude, which then dropped by an additional 6 db on the third 
syllable. 

The words with short rising accent reached their intensity peak 
at the middle of the accented syllable, being in this respect similar 
to the words with short falling accent. It should be recalled here that 
the intensity peak did not coincide with the peak in fundamental 
frequency in these words. The drop from the peak to the end of the 
stressed vowel was comparable to that on words with the short 
falling pattern (approximately 10 db). The amplitude on the second 
syllable, however, was noticeably different from that of the words 
with short falling accent. In disyllabic words with short rising accent, 
the peak on the second syllable was only approximately 2 db lower 
than that on the first syllable; in disyllabic words with short falling 
accent, the peak on the second syllable was about 8 db lower than 
the peak on the first syllable, resulting in a difference of approxi- 
mately 6 db between the two types of disyllabic words". On words 
with three syllables, the second syllable was only about 1 db less 
intense than the first, but the difference between the second and the 
third syllable was approximately 12 db. 

Figure 3 contains reproductions of graphic displays of the in- 
tensity patterns of six utterances by informant DK. On each re- 
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Fig.3. Reproductions of graphic displays of the intensity patterns of six utterances 
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production, the ordinate of the trace represents the short-time 
average of the absolute value of the acoustic pressure wave (cf. 
reference!!), expressed in decibels on an arbitrary scale. The cir- 
cuit was practically linear over a range of 30 db. Time in seconds is 
indicated on the abscissa. On the original display, 1 cm = 10 db 
on the intensity scale, and 10 cm = | sec. on the time scale. 

The six utterances contain the test words vrdta, barka, sid, kro, 
sélo, and mitka in the frame frdza . . . je napisand na tdbli. The first test 
word, vrdta, had long rising accent; the peak acoustic intensity of the 
vowels of both syllables was identical. The second sentence repro- 
duced here contained the test word bdrka, with the same vowels in 
both syllables as in vrdta, but with long falling accent. The intensity 
pattern on bdrka was characterized by falling intensity on the first 
syllable, and by considerably weaker intensity on the second syllable 
(the actual difference between the peaks in this utterance was 12 db). 
Utterance 3, containing the word sdd, illustrates the intensity 
pattern characterized by two distinct levels which was observed in 
approximately one third of the words with long falling accent. 
Utterance 4 shows the intensity pattern on the word fz, illustrating 
the manifestation of the long falling accent on a monosyllabic word 
with /r/ as the syllable nucleus. The peaks correspond to the periods 
of voicing between the flaps constituting the trilled /r/. Utterance 5 
contains the test word sélo, with short rising accent and relatively 
greater amplitude on the second syllable than in the word mitka, 
with short falling accent, represented in utterance 6. Six manifesta- 
tions of the long rising accent may be observed on the repetitions of 
the word frdza at the beginning of each utterance. The speaker used 
very low pitch toward the end of each utterance; the fluctuations in 
the trace correspond to pressure changes associated with each vocal 
fold vibration. 

In summary, we found that both the long accents had a set of 
phonetic characteristics that distinguished them clearly from each 
other and also from the short accents. The situation was ambiguous 
with regard to the two short accents. A difference in fundamental 
frequency patterns was observed only on words of three syllables; 
the two-syllable words, however, showed a difference in amplitude 
that could conceivably be sufficient to distinguish between the two 
types of word. 
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3.4, The functional significance of the difference between the two short 
accents 


Some information about the relative importance of the above- 
described phonetic clues may be gained from the reactions of the 
listeners. As was mentioned at the beginning of this paper, the re- 
corded tapes were played to informants DK and VJ, and their 
identifications and comments were noted. The two long accents 
were always clearly distinguished both from each other and also 
from the short accents. Ambiguities were noted in the identification 
of lexical items with the short accents. If only one form was possible, 
the identification was always positive. For example, the word bdba 
was identified as g. sing. of bdb ‘‘bean’’. In the standard language, 
boba should have a short rising accent. We may thus assume that the 
speaker had intended to produce the form with the short rising 
accent. On the other hand, the word kika was identified by both 
listeners as having two meanings, “hook” and ‘“‘of the hip”. When 
the tape was recorded, informant DK was requested to produce the 
g. sing. form of the word kik ‘Ship’, which should have the form 
kuka, with short rising accent. The word kika “hook”, which was 
offered by the listeners as alternative meaning, has a short falling 
accent in the standard language. Similar ambiguities were observed 
in the other disyllabic words in which a difference in accent is ex- 
pected to be associated with a difference in meaning. 

The results of the listening test suggest that although a phonetic 
difference may be observed between the disyllabic words classified 
as belonging to the short falling and the short rising category, these 
average phonetic differences are not accompanied by a difference in 
meaning. This is a puzzling result, and there appears to be no 
immediately obvious explanation. A separate experiment should be 
designed to check the generality of the results. 

One factor that corroborates the validity of the observed intensi- 
ty differences is the fact that a similar difference was observed in the 
second syllables of disyllabic words with long rising and long falling 
accents. In this case there was also a clear difference in the funda- 
mental frequency patterns in addition to the intensity differences in 
the second syllable. 


4. Other phonetic observations 


A number of other phonetic observations were made during the 
investigation, which will be briefly reported here. 
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4.1. Accent and phonetic quality 


The problem was investigated whether there was any connec- 
tion between the selection of a particular allophone of the vowel and 
the accent associated with it. The positions of the first three formants 
of the stressed syllable nuclei were measured in the 100 test words 
and in the 100 occurrences of fréza. Table III presents the average 
frequency positions of the first three formants for each vowel, separat- 
ed according to accent type. Table IV shows the variations possible 
for 100 repetitions of the same vowel with the same accent (/4/), 
and illustrates the ranges within which the averages may be expect- 
ed to fluctuate. An inspection of table III indicates that accent has 
probably no influence on the phonetic nature of the vowel allophone. 
On the other hand, it appears clearly that the vowels /e/ and /o/ 
have two different allophones depending on the length of the vowel. 
This may be seen even more clearly from the acoustical vowel 
diagram presented in figure 4. Each point represents the target 
position of the stressed vowel in one of the 100 test words. The first 
formant frequency is indicated on the vertical axis, the second 
formant frequency on the horizontal axis. The values for /r/ were 
measured during the vocalic part between the flaps characterizing 
/r/; the vocalic periods obviously represent a central vowel. The 
wide dispersion of the points for /r/, compared, for example, with 
the compact distribution of the points for /a/, suggests that formant 
structure is probably not the essential acoustic characteristic of 
syllabic /r/. 


Table IV 


Formant Positions of /4/ in 100 Occurrences of frdza (Frequencies in cycles per second) 


F, F, F, 
No. of Frequency No. of Frequency No. of Frequency 
occurrences range occurrences range occurrences range 
SS SS eee 
6 625-650 5 1200-1225 1 2300 
91 675-700 39 1250-1275 16 2500 
725-750 49 1300-1325 Z| 2525-2550 
7 1350-1375 39 2575-2600 
16 2625-2650 
u 2675-2700 
100 625-750 100 1200-1375 100 2300-2700 
Average 695 1285 2580 
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Fig.4. Acoustical vowel diagram, representing the formant positions of the stressed 
syllable nuclei in 100 test words, uttered by informant DK. Circles indicate F,-F, 
positions of short vowels, filled dots represent long vowels. 


Duration appears to have no significant influence on the for- 
mant structure of allophones of /i/, /u/, /a/, and /r/. The vowels /e/ 
and /o/ have allophones [¢] and [9] with short quantity, [e] and [o] 
with long quantity. Within the allophones determined by duration, 
accent appears to have no further influence. 


4.2, Duration 


The contrast between long and short vowels was maintained in 
the stressed syllables. The average duration of the vowel of the first 
syllable in words with short falling accent was 12.1 centiseconds, in 
words with short rising accent 11.0 csec, long falling accent 25.2 
csec, and long rising accent 26.4 csec. Thus the long syllable nuclei 
were somewhat more than twice as long as the short stressed syllable 
nuclei. 

In unstressed position (i.e. in the second and third syllables of 
the test words) the durational contrasts appeared not to be main- 
tained. Actual measurements were not made, since no segmentation 
point could be established between the end of the last syllable of the 
test word and the following word of the frame (the word je begins 
with a semivowel, so that formant movements are continuous). 
However, when the informants listened to the tapes, their comments 
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suggested similar confusions in identification as had been observed 
with the short falling and rising accents. For example, DK had been 
requested to produce the words meaning “‘of the king’’ and ‘“‘of the 
kings”, which are given as frdlja and krdlja in the standard language. 
The words occurred at different points in the random list, and so the 
informant was not consciously contrasting one with the other. Both 
words were identified as ‘‘of the king’, or gen. sing. (i.e. with short 
vowel in the second syllable) by both listeners. 

Belié has stated !° that the contrast between short rising and short 
falling accents is preserved in disyllabic words with a long second 
syllable. The informants whose speech was investigated in the course 
of this study appeared to have no quantity distinctions in unstressed 
syllables. Since this distinction is not used by the informants, it 
appears entirely consistent that they also seemed to have no accent 
contrasts in disyllabic words, regardless of the length of the vowel of 
the second syllable in the standard language. 


4.3. Influence of sentence intonation 


In several previous studies attempts have been made to distin- 
guish the accents occurring on the separate lexical items from the 
superimposed sentence intonation. In his description of the mani- 
festations of the various tones, Appel!* indicated each time whether 
the word in question occurred in a rising or falling portion of the 
intonation contour. More recently, Hodge'’ has tried to solve the 
problem by describing both tone and intonation with four pitch 
phonemes and three degrees of stress. Jvi¢!* offers an interesting 
suggestion that might help explain the loss of quantity distinctions 
in the unstressed syllables. According to Jvi¢, the apparent tendency 
in the language to eliminate from the end of the word distinctive 
elements such as quantity and accent might be explained as an 
attempt to eliminate the collision between word intonation and 
sentence intonation. A nucleus is formed in the first part of the word, 
which contains the distinctive ‘‘signs”’ of word intonation; the second 
part of the word, particularly the last syllable, thus becomes free to 
carry the functions of sentence intonation. 

The present investigation confirms Jvi¢’s theory. In the materials 
recorded by informant DmK, there were several minimal pairs, 
produced in such a manner that a long rising accent could be ob- 
served with falling intonation, and a long falling accent with rising 
intonation. (The 100 frame utterances by DK all had an intonation 
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peak on the test word, and falling intonation on the second syllable 
of the test word.) In those instances, the influence of the intonation 
appeared on the second syllable. The pattern occurring on the first 
syllable was the same under both falling and rising intonations. 

Figure 5 contains some examples illustrating the effect of in- 
tonation on word accent. Narrow-band spectrograms of eight words 
uttered by informant DmK are presented. Of the four words with 
long rising accent, ruéka and gldve were produced with rising in- 
tonation, drdga and rika with falling intonation”. It is evident from 
the fundamental frequency patterns that the effect of intonation was 
essentially confined to the second syllable. Three words with long 
falling accent and one word with short falling accent are included 
in the bottom half of the figure. Of these, the words ruke and draga 
were produced with rising intonation, gldve and grdda with falling 
intonation. Again, it appears that in the interaction between word 
accent and sentence intonation, the fundamental frequency pattern 
on the first syllable signals the accent associated with the word, the 
fundamental frequency pattern on the second syllable carries infor- 
mation relative to sentence intonation. 


4.4 The manifestation of the different accents on words with |r| as 
syllable nucleus 


If either a pitch or intensity pattern is significant in distinguish- 
ing between words, it is interesting to observe how these distinctions 
are realized in words where the distinctive accent appears on /r/. 
The syllable nucleus /r/ in Serbo-Croatian is a tongue-tip trill, 
consisting of one flap (or at the most two) for the short syllabic /r/ 
and three to five flaps for the long syllable nuclei /¢/ and /?/. The 
set of test words contained 17 occurrences of /r/ with all four accents; 
the data are presented in table V. 

The measurement of the fundamental frequency during the 
periods of voicing between the flaps presented a particularly difficult 
problem. As far as this measurement could be carried through, it 
appears that the fundamental frequency patterns on the stressed 
syllables with /r/ as syllable nucleus were similar to those occurring 
on other syllable nuclei. The four trisyllabic words with short rising 
accent offer particularly good examples of the high fundamental 
frequency on the second syllable that has been described above as a 
feature of trisyllabic words with short rising accent. On the other 
hand, the one disyllabic word with short rising accent (Aista) had a 
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laryngealized second syllable and low intensity in the second syllable, 
which indicates that it was pronounced with phonetic features more 
often associated with the short falling category. The single occur- 
rence of short falling accent on a disyllabic word with /r/ as syllable 
nucleus (Arvdv) had, in turn, characteristics that are usually the 
property of words with short rising accent, having a second syllable 
with high intensity and a falling rather than low level fundamental 
frequency. This apparent contradiction is one more illustration of 
the observation that although certain phonetic features are present 
in the language that might potentially distinguish between the two 
short accents, they are not used in a systematic fashion to produce 
differences in meaning. 

The intensities of the second and third syllables, apart from the 
contradiction that occurred in short disyllabic words, were similar 
to those observed in words with other syllable nuclei: second sylla- 
bles of words with rising accents on the first syllable had higher 
intensities than second syllables of words with falling accents. The 
acoustic intensity patterns of the stressed syllables with /r/ as syllable 
nucleus are also contained in table V. The intensities between and 
during each tongue-tip closure were measured; the numbers in the 
corresponding column in table V refer to these values. An example 
of the type of trace from which the measurements were made (the 
intensity curve of the word kfv) was included in figure 3. 

There appears to be no observable difference between the in- 
tensities of the flaps or the voiced periods between them, when /r/ 
is produced with either the long falling or the long rising accent. 
This suggests that the intensity patterns on the stressed syllables 
carry less information than the fundamental frequency patterns, 
since the patterns on /r/ are phonemically equivalent to those occur- 
ring on other vowels, where phonetic differences in the intensity 
distributions were observed. The detailed shape of the intensity 
contours is thus probably non-significant; the major burden for 
differentiation appears to be carried by the quantity difference on 
the one hand, and fundamental frequency difference on the other 
hand. 


5. Summary and conclusions 


The phonetic characteristics of the long rising and long falling 
accents in the dialect of Belgrade have been described. In the 
material analyzed during the study, the long rising accent was 


11 Phonetica, Vol. 7, No. 2/3, 1961 
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characterized by rising fundamental frequency and increasing in- 
tensity on the first syllable, followed by a second syllable with only 
slightly weaker intensity. The fundamental frequency on the second 
syllable started high; the drop in frequency occurred during the 
second syllable. The long falling accent was characterized by a de- 
creasing fundamental frequency on the first syllable, accompanied 
by a decrease in intensity. The second syllable had considerably 
lower intensity. The fundamental frequency on the second syllable 
was usually level at the low end of the range of the speaker’s voice. 
Sentence intonation affected the second syllable; therefore the funda- 
mental frequency patterns on the first syllable appear to be distinc- 
tive. 

There appeared to be no difference in the fundamental fre- 
quency patterns associated with disyllabic words with a short vowel 
in the stressed first syllable. In trisyllabic words with a short rising 
accent on the first syllable, the second syllable was found to be higher 
in frequency than the first syllable. The intensity patterns associated 
with the two types of words showed a difference in the intensity of 
the second syllable: the average for words where a short rising 
accent would be expected was considerably higher than the average 
for words where a short falling accent is expected. The difference 
was comparable to the intensity difference observed in the second 
syllables of two-syllable words with long rising and long falling 
accents. The listeners’ reactions suggested that this phonetic differ- 
ence was not accompanied by a difference in meaning, and thus 
should be considered phonemically nondistinctive. 

The dialect under consideration is that of the younger gener- 
ation of the educated circles of Belgrade. From the limited data 
available for the present study a tendency is noted in this dialect 
toward merging the two short accents. The phonetic features that 
characterize the two short accents appear to be losing gradually 
their distinctive function®°. No phonetic differences in pitch are 
present in disyllabic words. An intensity difference is phonetically 
present in the majority of words, but nondistinctive. Trisyllabic 
words maintain both fundamental frequency and intensity differ- 
ences at the present stage. The material available for the present 
study does not allow an estimate of the extent to which these con- 
ditions prevail in the usage of other speakers of the dialect. The 
dialect itself appears to be in a period of rapid change. As we are 
dealing with a changing system, it appears futile to try to set upa 
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static pattern to explain the function of the emerging features. 
Certain of the described elements probably constitute survivals of 
an older system; others indicate the direction of the change in 
progress. The present study is offered as an attempt to document 
one stage of this development. 


Akustische Korrelate des Akzents im Serbokroatischen 


Kusammenfassung 


Die phonetischen Merkmale der langen steigenden und fallenden Akzente im 
Belgrader Dialekt des Serbokroatischen wurden beschrieben. Zweisilbige Worter mit 
langem steigendem Akzent hatten steigende Grundfrequenz und steigende Intensitat 
auf der ersten Silbe und nur wenig schwachere Intensitat auf der zweiten Silbe. Das Ab- 
sinken der Grundfrequenz fand wahrend der zweiten Silbe statt. Zweisilbige Wérter mit 
langem fallendem Akzent hatten sowohl fallende Grundfrequenz wie auch fallende In- 
tensitat auf der ersten Silbe. Die Intensitat der zweiten Silbe war betrachtlich niedriger. 
Die Grundfrequenz der zweiten Silbe lag gewohnlich unverandert auf der tiefsten Stufe 
des Stimmumfanges der Sprecher. Die Satzintonation beeinfluBte die zweite Silbe; des- 
halb sind die Akzentphanomene der ersten Silbe als distinktiv anzusehen. 

Im untersuchten Dialekt wurden keine Unterschiede im Tonverlauf der zwei- 
silbigen Worter mit kurzen Vokalen in der ersten betonten Silbe beobachtet. In drei- 
silbigen Wortern mit einem kurzen steigenden Akzent auf der ersten Silbe hatte die 
zweite Silbe héhere Frequenz als die erste. Die Intensitat der zweiten Silbe der WoOrter 
mit kurzem steigendem Akzent war durchschnittlich betrachtlich hoher als die Intensitat 
der zweiten Silbe der Worter mit kurzem fallendem Akzent. Der Unterschied ist ver- 
gleichbar mit dem Unterschied zwischen den zweiten Silben in Wo6rtern mit langem 
steigendem und langem fallendem Akzent. Horerurteile bezeugen aber, daB dieser phone- 
tische Unterschied nicht mit einem Bedeutungsunterschied assoziiert ist; deshalb muB 
der Intensitatsunterschied in der zweiten Silbe als nicht distinktiv angesehen werden. Es 
scheint also, daB die phonetischen Merkmale, die die beiden kurzen Akzente charakteri- 
sieren, im Begriffe sind, ihre distinktive Funktion zu verlieren. Im Tonverlauf wurden 
keine phonetischen Unterschiede bei zweisilbigen Wértern beobachtet. Ein Intensitats- 
unterschied konnte phonetisch festgestellt werden, hatte aber keine phonemische Funk- 
tion. In dreisilbigen Wértern wurden sowohl Tonverlaufs- wie auch Intensitatsunter- 
schiede festgestellt. Die beiden kurzen Akzente sind also in zweisilbigen Wortern zu- 
sammengefallen, werden aber in dreisilbigen Wértern auseinandergehalten. Eine Speziai- 
untersuchung der beiden kurzen Akzente im Belgrader Dialekt wird vorgeschlagen. 


Quelques corrélats acoustiques de T accent serbocroate 
Résumé 

On décrit les caractéristiques phonétiques des accents longs (croissants et décrois- 
sants) dans le dialecte serbocroate de Belgrade. Paroles 4 deux syllabes avec accent long 
et croissant ont une fréquence fondamentale et une intensité croissantes dans la premiére 
syllabe, et une intensité inférieure, tant soit peu, dans la deuxiéme syllabe. La décrois- 
sance de la fréquence fondamentale a lieu dans la deuxiéme syllabe. Paroles a deux 
syllabes avec accent long et décroissant ont une fréquence fondamentale aussi bien qu’une 
intensité décroissantes dans la premiére syllabe. L’intensité de la deuxiéme syllabe est 
considérablement inférieure. La fréquence fondamentale de la deuxiéme syllabe persiste, 
d’ordinaire, invariable sur le niveau le plus bas de l’étendue normale de voix du parlant. 
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L’intonation de la phrase influe sur la deuxiéme syllabe; c’est pourquoi il faut regarder 
comme distinctifs les phénoménes accentuels de la premiére syllabe. 

On n’a pas pu découvrir, dans le dialecte examiné, des différences d’accent musical 
dans les paroles 4 deux syllabes avec voyelles bréves dans la premiére syllabe accentuée. 
Dans les paroles a trois syllabes avec un accent bref et croissant sur la premiére syllabe, 
la deuxiéme syllabe montre une fréquence supérieure a celle de la premiére. Dans les 
paroles avec accent bref et croissant, l’intensité de la deuxiéme syllabe est, en moyenne, 
considérablement supérieure a celle de la deuxiéme syllabe dans les paroles avec accent 
bref et décroissant. Cette différence est comparable a la différence qui existe dans la 
deuxiéme syllabe des paroles avec accent long et croissant d’une part, et accent long et 
décroissant d’autre part. Pourtant, selon le témoignage des écoutants, cette différence 
phonétique ne s’associe pas a une différence de signification, c’est pourquoi il faut re- 
garder comme non-distinctive la variation d’intensité dans la deuxiéme syllabe. II parait 
donc que les caractéristiques phonétiques qui marquent les deux accents brefs sont en 
train de perdre leur fonction distinctive. Dans les paroles 4 deux syllabes on n’a pas pu 
observer des différences phonétiques d’intonation du mot. On a pu, pourtant, distinguer 
une différence phonétique d’intensité, mais qui n’avait pas de fonction phonémique. 
Dans les paroles 4 trois syllabes on a découvert des différences d’intonation aussi bien que 
d’intensité. Cela signifie que les deux accents brefs se sont confondus dans les paroles a 
deux syllabes, tandis qu’ils retiennent leur distinction dans les paroles a trois syllabes. On 
recommande une enquéte spéciale pour les deux accents brefs dans le dialecte de Belgrade. 
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Appendix 


This appendix contains the 100 test words analyzed in the course 
of the study. The words are presented according to accent type. 
Within each group, the words are arranged according to syllable 
nuclei in the sequence /ieaour/. 


1. Short falling 


Word Form Meaning and comments 
dim n. sg. m. smoke 

lipa n. sg. f. lindentree 

pita n. sg. f. pie 


hléb n. sg. m. bread 
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Word 


séla 
éas 
stati 
blato 
vrana 
krava 
jagoda 
jarica 
bdga 
polje 
gora 
k6S 
bdb 
kdnj 
gddina 
gddina 
rum 
kik 
mika 
miha 
kipim 
vit 
kist 
pist 
kivav 


2. Long falling 


Word 
sin 
kriz 
lipa 
pivo 
méd 
lép 
séla 
kralj 
grad 


Form 


Ra ples 
n. sg. m. 


inf. 


BB 
n TA TA tA tA Ota ta 
Roa 08 ge 98 da da 0a oe 0B 


sg. 


TPB SBR PP SSB Bo BB 
& 


. Sg. praes. ind. 


5 


sg. 
sg. m 
sg. m. 
sg.m 


PBB SE 


= 
° 
a} 
5 


ve 
3 


E & 
Hh 


Seen 


PPR EP Pw BB 
~ 
jo} 
5 


Meaning and comments 


villages 
hour 

to stand 
swamp 
crow 

cow 
strawberry 
young goat 
God 

field 
mountain 
woven basket 
bean 

horse 

year 

of the years 
rum 

hip 

trouble 

fly 

I gather 
garden 
cross 
finger 
bloody 


Meaning and comments 


son 
cross 

of lindentrees 
beer 

honey 
beautiful 

of villages 
king 

city 
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Word Form 
grada g. pl. m. 
pravda n. sg. f. 
krava g. pl. f. 
star n. sg. m 
glavu acc. sg. 
straza n. sg. f. 
zlato n. sg. n. 
barka n. sg. f. 
bog n. sg. m. 
rod n. sg. m. 
nos n. sg. m. 
bdj n. sg. m. 
rég n. sg. m. 
gora g. pl. f. 
polja g. pl. n. 
véda a 


klja¢ n. 
zab n. 
kat n. 
sid n. 
sth Nn. 
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sg. praes. ind. 


sg. 
sg. 
sg. 
sg. 
sg. 


BBBBSs 


Meaning and comments 


of cities 

(So DK; informant VJ said 
the word was in g.sg., which 
according to Re%etar, p.24, 
should be grdda, with short 
/a/ in the second syllable.) 
justice 

of cows 


gender, kind 

nose 

battle 

horn 

of mountains 

(this word occurred twice) 
of fields 

(This word was produced w. 
a long falling accent by DK 
and accepted as such by VJ. 
Acc. to Re%etar, p.28, it 
should be pélja, with long 
rising accent.) 

he leads 

(So DK; VJ suggested, as 
alternative meaning, g.pl.f. 
“of water’. According to 
Re%etar, p.31, g.pl. of vdda 
should be vé6d@.) 

key 

tooth 

angle, corner 

court of justice 


dry 


146 Lehiste, Some Acoustic Correlates of Accent in Serbo-Croatian 


Word 
raga 
kaipim 
gura 
Lika 
brk 


3. Short rising 


sélo 
séla 
zéna 
noga 
nogu 
boba 


jarica 


kika 


krsta 
tvati se 
krstiti 
ttkati 


gtgljati 


Form 


3. sg. praes. ind. 
1. sg. praes. ind. 
3. sg. praes. ind. 
n. sg. 
n. Sg. 
n. sg. 
n. sg. 
n. sg. 
n. sg. 
g. sg. 


PEBUBEBSE 


g. sg. m. 


Meaning and comments 


he mocks 

I buy 

he pushes 

a man’s name 
mustache 
carrion 

blood 

black 

worm 
mustache 


village 

village 

woman, wife 

leg 

leg 

bean 

summer wheat 

(DK says that this word is 
not in his vocabulary. VJ 
said it was a repetition of the 
word jdrica ‘“‘young goat’’.) 
of the hip 

(Both informants said that 
this word could also mean 
“hook” in n.sg.f. According 
to the dictionary, the word 
for ‘hook’? is kitka.) 

cross 

to struggle, to wrestle 

to baptize 

to race 

(According to the diction- 
ary, the word should have a 
long rising accent: ¢fkati.) 
to gargle 
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4. Long rising 


Word 
Mika 
zéna 

glava 
vrata 
kralja 
kralja 
casa 


nogu 


bdja 


boja 
kénja 
voda 
luka 
sida 


Kyrsta 
krcati 


cs 
° 
5 
5 


@ Hoe o B Boe p 
mn 
Og 


ees 


5 


Meaning and comments 


a man’s name 

of women 

head 

door 

of the king 

of kings 

little plate, round dish 

of legs 

(According to ReSetar, p. 32, 
the form should be ndgi.) 
color 

(This word was produced by 
DK with long rising accent. 
VJ identified it as g.pl. Acc. 
to the dictionary, n.sg. 
should be bdja; g.pl. should 
have the form 607d, acc. to 
ReSetar, p.31.) 

of colors 

of horses 

of waters 

harbor 

court of justice 

(this word occurred twice) 
a man’s name 

to load a ship 

(According to the diction- 
ary, the word should have 
short rising accent: k?cati.) 


Author’s address: Ilse Lehiste, Ph. D. University of Michigan, Communication Sciences Laboratory, Ann 


Arbor, Mich. (USA). 
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Université de Nagoya 


Mémoire sur l’analyse de la qualité des voyelles 


Par YosHIYUKI OcHIAI 


Explication des Termes Spéciaux 


Confusion 4 l’Entrée — mode de confusion donnée par les chiffres dans des cellules en 
direction verticale, dans la matrice de confusion. Ce type de confusion est lié au 
mécanisme de ]’établissement des qualités. 

Confusion 4 la Sortie — mode de confusion déterminée par les chiffres dans des cellules 
en direction horizontale, dans la matrice de confusion. Ce type de confusion est 
lié au mécanisme de la destruction des qualités. 

Importance Positive — distribution des qualités dans des régions de fréquences qui 
contribue positivement a l’établissement des qualités considérées. 

Importance Négative — distribution des qualités dans des régions de fréquences qui ne 
contribue pas a4 la formation des qualités, mais contribue plutdét a la destruction 
des qualités. 

Formant Positif — sommet de la structure formantique qui contribue subjectivement a 
Videntification et a la discrimination des phonémes considérés, et qui est considéré 
objectivement comme se basant sur une action résonantielle quelconque d’un 
circuit acoustique principal formé dans leur prononciation. 

Formant Négatif — foyer de vallon qui contribue subjectivement 4 identification et a 
la discrimination des phonémes considérés (par exemple les phonémes nasalisés), 
et qui est considéré objectivement comme se basant sur une action antirésonantielle 
quelconque d’un circuit acoustique subsidiairement formé dans leur prononciation. 

Qualité Phonémique — une qualité du timbre de la parole, permettant l’identification 
et la discrimination des phonémes au sens phonétique. Cette qualité est l’idée tirée 
du point de vue de netteté des paroles ou de lintelligibilité du texte. 

Qualité Vocalique — une autre qualité du timbre de la parole, permettant l’identification 
et la discrimination des voix des parleurs. Cette qualité est lidée tirée du point de 
vue de clarté des voix de ceux qui parlent. 

Répartition ou Distribution des Qualités — une idée sur le mode de distribution des 
qualités dans la dimension de fréquences. Plus précisément, la densité des qualités 
qui sont distribuées par unité des bandes de fréquences. 

Point de Balance en Qualité ou Point Bissecteur de Qualité — point d’intersection d’une 
paire de caractéristiques des qualités dans les distorsions des bandes-suppressions, 
de basse-coupures et de haute-coupures. 

Vallon Majeur — le plus grand vallon, c’est-a-dire la partie la plus vide dans le patron 
des vocales. Cette position se situe actuellement et moyennement dans la région 
1.3-1.6 kp/s au sujet du systéme des vocales japonaises. 
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Matrice de Confusion ~ table sommaire des confusions représentée en forme carrée dont 


la ligne verticale donne les signaux et la ligne horizontale, les qualités correspon- 
dantes. 


Comme nous l’avons déja vu dans nos études®’, la qualité en 
général devient moindre quand la distorsion augmente: par exemple, 
dans le cas de la distorsion de bande-éliminatoire, on a la caractéris- 
tique de la qualité (tant de la qualité phonémique que de la qualité 
vocalique) qui diminue généralement avec l’agrandissement de la 
distorsion. La qualité diminue, parce que la bande transmissionale 
est limitée. Or, il y a deux sortes de limitation des bandes trans- 
missionales: lune est la limitation de bas en haut successivement en 
dimension de fréquences; l’autre, celle de haut en bas, inversement. 
Nous avons ainsi une paire de caractéristiques de la qualité qui 
révélent la phase de déperdition de la qualité, quand les signaux du 
timbre sont soumis aux distorsions réciproques des deux sortes. Ce- 
pendant, c’est malheureux que les deux processus par deux distor- 
sions nous aménent a des résultats un peu différents dans l’interpré- 
tation des deux caractéristiques ainsi obtenues. Par exemple, dans 
le cas de la qualité phonémique, la dérivée de la qualité par la 
fréquence n’est pas identique entre les deux distorsions; |’une est un 
peu a coté de l'autre. La difficulté de linterprétation du phénoméne 
des qualités se révéle ici. Nous ne voulons pas aboutir a une inter- 
prétation déraisonnable. 

Ce que nous pouvons incontestablement faire sur cette paire de 
caractéristiques des qualités (caractéristique en haute-coupure et 
caractéristique en basse-coupure), c’est de faire attention au point 
d’intersection de ces deux caractéristiques et de le considérer comme 
le point marquant qui divise la qualité entiére en deux parties 
égales’. C’est ainsi que nous baptisons le point d’intersection « point 
de balance en qualité» ou «point bissecteur de qualité». Par Pintro- 
duction de ce point de balance dans la considération des qualités, 
nous pouvons mettre en lumiére ces faits importants: pour la qualité 
phonémique, ce point de balance indique le point de concentration 
maximum de la qualité; pour la qualité vocalique, ce point de 
balance indique, au contraire, le point de concentration minimum 
de la qualité. En d’autres termes, le point bissecteur en qualité 
phonémique des voyelles est 4 peu prés le point indiquant le centre 
du domaine formantique qui contribue actuellement, parmi tous 
les pics, 4 la plus importante signification au sens phonémique; le 
point bissecteur en qualité vocalique des voix, au contraire, coincide 
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avec le point du vallon majeur (vocal glen, en anglais) qui est le 
point exact de la région d’amplitude presque minimum. Ces faits 
frappants semblent venus de la différence essentielle des modes de 
répartition des deux qualités. La qualité phonémique se répartit 
d’une maniére trés concentrée dans une région particuliére relative- 
ment étroite. La qualité vocalique se répartit d’une maniére dispersée 
et comparativement uniforme, s’étendant sur presque toute la région 
de fréquences. C’est la connaissance que nous pouvons avoir, grosso 
modo, sur la répartition des qualités. Nous devons en ajouter ici une 
autre chose sur la répartition plus détaillée des qualités, en nous 
appuyant sur nos expériences. La répartition de la qualité vocalique 
est divisée en deux parties, haute et basse, par le point du vallon 
majeur; la répartition de la qualité phonémique est un peu différente 
suivant la variation des voyelles. Des voyelles 4 formant simple et 
unique, comme les voyelles japonaises «A» et «O», ont habituelle- 
ment une seule région de concentration de qualité*. Quant aux 
voyelles 4 deux formants mal équilibrés, comme les voyelles «I» et 
« E», elles ont habituellement deux régions formantiques non balan- 
cées au sens de qualité phonémique: l’une a une concentration trés 
faible, et Pautre, une concentration trés forte. Il faut remarquer 
dans ce cas que la prédominance des régions au sens physique n’a 
pas nécessairement de relation avec la prépondérance des régions 
au sens subjectif. L’importance majeure, c’est-a-dire la prépondé- 
rance subjective au sens de qualité, ne correspond pas a la région de 
lamplitude majeure au sens physique (région du format majeur 
F,), mais elle correspond plutét a la région de l’amplitude mineure 
(région du formant mineur F,); importance mineure, c’est-a-dire 
Yimportance suivante, au sens subjectif, ne correspond pas ala région 
du formant mineur, mais a celle du formant majeur. Pour les voyelles 
a formant unique, le point de balance indique tout de suite le centre 
de Punique concentration; et, pour les voyelles 4 deux formants, le 
point de balance tombe dans le voisinage de la région la plus con- 
centrée. Quoi qu'il en soit, il est exact que le point de balance de 
qualité peut indiquer le point le plus marquant dans les patrons du 
timbre: ce point le plus marquant est celui de la concentration 

* Il faut noter dans ce cas que la position du pic maximum de Punique formant 
ne correspond pas nécessairement a la place exacte de l’importance positive unique. 
Suivant nos expériences, il y a beaucoup de cas ou elles ne coincident pas exactement 


Pune avec l’autre. Ce fait signifie que le point du pic de ce qu’on appelle formant ne 


donne pas nécessairement la position la plus juste de la contribution maximum au sens 
phonémique. 
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maximum et non de la concentration minimum pour le patron 
phonémique, tandis que, pour le patron vocalique, c’est le point de 
concentration minimum et non celui de concentration maximum. 

Comme linspection détaillée de la matrice de confusion com- 
posée par les signaux du timbre et les qualités de réponse le montre, 
les chiffres placés diagonalement dans cette matrice nous révélent 
Pinformation sur le jugement juste dans nos perceptions des signaux; 
et les résultats du jugement erroné sont exprimés sommairement par 
les deux expressions, savoir par les chiffres donnés dans le cété per- 
pendiculaire de cette matrice (confusion d’entrée) et par les chiffres 
donnés dans le cété horizontal (confusion de départ). Ces confusions 
de deux sortes, d’entrée et de départ, nous permettent de schématiser 
entiérement le phénoméne de la qualité®. 

En introduisant les idées sur la confusion a l’entrée ou a l’arrivée 
(incoming confusion, en anglais) ainsi que sur la confusion au départ 
ou a la sortie (outgoing confusion), nous pouvons absolument par- 
faire notre théorie de qualité. C’est parce que, par cela seulement, 
nous pouvons mettre en lumiére non seulement le mécanisme de la 
déperdition de qualité, mais aussi celui de la formation de qualité. 
En jugeant des caractéristiques de confusion, le cours de la formation 
de qualité est entiérement différent de celui de la déperdition de 
qualité. C’est ainsi que nous pouvons préparer une nouvelle voie 
dans l’interprétation du phénoméne des qualités. La confusion au 
départ n’apporte rien de nouveau, parce qu’elle ne montre que le 
phénoméne de déperdition des qualités que nous avons déja pu 
suffisamment deviner par les allures générales des caractéristiques 
des qualités. Tandis que l’introduction de la confusion a l’arrivée 
nous améne a la découverte de l’idée de la formation des qualités 
que nous ne pouvons entrevoir par la seule étude des caractéristiques 
en général. 

Revenons a notre thése du point d’intersection. Le point d’inter- 
section d’une paire de caractéristiques de la confusibilité au départ 
nous montre aussi ce que nous donne le point de balance déja décrit. 
C’est ce qui est donné par le point d’intersection dans les deux 
caractéristiques de confusibilité 4 l’arrivée, que nous avions pu 
mettre en attente. Maintenant donc nous allons décrire plus en 
détail ce dont il s’agit quant au point d’intersection de la confusi- 
bilité 4 ’arrivée. Ce que signifie ce point est tout a fait différent selon 
la différence de qualité: pour la qualité phonémique, ce point 
d’intersection de la confusibilité 4 l’arrivée indique le centre de la 
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région de nuisance (ou d’importance négative) pour l’établissement 
de la qualité phonémique; pour la qualité vocalique, ce point 
montre, au contraire, le centre de la région d’importance (ou plus 


, 


exactement d’importance positive) pour l’établissement de la qualité 
vocalique. ' 

La parole est sans doute le phénoméne humain en ce qui con- 
cerne l’expression et la transmission de l’intelligence et de l’émotion 
des humains. C’est sa forme acoustique qui rend service a la percep- 
tion et la reconnaissance de la parole. Les paroles considérées dans 
le domaine de la communication sont donc un objectif physico- 
acoustique ainsi qu’un objectif psycho-physiologique. Il y a beau- 
coup de difficultés dans l’étude de la qualité des paroles. La plus 
grande existe dans la méthodologie par laquelle nous avangons dans 
nos études. Sur notre route, il y a des marécages infranchissables, 
des labyrinthes sans issues et des culs-de-sac qui ne conduisent nulle 
part. La mise en ceuvre de la recherche sur les qualités, c’est exacte- 
ment faire le pont entre la psychométrie et la physico-phonétique. 
Tout ce qui marche sur cette voie, doit éprouver, un jour ou l’autre, 
des difficultés pour se désembourber du marais fangeux ou il a mis 
les pieds ou pour trouver l’issue des impasses ou il s’est égaré incons- 
clemment. 

Le plus important et le plus vital dans la considération de qualité, 
c’est de ne pas confondre le phénoméne physique avec le psycholo- 
gique. 

Suivant l’expression inverse, faire la distinction la plus claire 
entre le stimulus comme signal et la réponse comme qualité est tout 
a fait essentiel auquel nous devons tendre toujours. La confusion 
entre eux est la cause de tous les enchevétrements dans les considé- 
rations. 

Nous pouvons appeler, par exemple, la structure des cimes dans 
les patrons du timbre des vocales, «structure formantique» ou 
simplement «formant». C’est absolument la dénomination au point 
de vue physique. D’autre part, nous pouvons étudier les allures de 
la réponse correspondant au formant comme stimulus. Nous pouvons 
ainsi déterminer subjectivement ce qu’on appelle importance comme 
contribuant a l’établissement de la qualité. Nous avons alors le 
formant comme objectif physique d’une part, et d’autre part, Pimpor- 
tance comme objectif psychologique. 

Comme principe général, importance d’une région de fré- 
quences peut étre définie par le degré de contribution de cette région 
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a l’établissement de la qualité considérée, et cette importance peut 
€tre actuellement représentée et mesurée par la valeur de la diffé- 
rence entre confusion a l’entrée et confusion au départ. Il y a natu- 
rellement deux sortes d’importance suivant le signe de cette valeur: 
Pimportance positive qui correspond a la condition que la valeur de 
la confusion a lentrée est plus grande que la confusion au départ; 
et ’importance négative qui correspond a la condition inverse ow la 
confusion au départ est plus grande que la confusion a l’entrée. 

Nous avons ainsi définitivement admis qu’il y a conséquemment 
deux sortes d’importances, positive et négative, si nous définissons 
Pimportance comme donné ci-dessus. Gependant, quant au formant, 
y a-t-il aussi le formant positif ainsi que le formant négatif? Au sens 
général et assez large, nous devons peut-étre admettre, au domaine 
de la qualité phonémique, l’existence du formant négatif: par 
exemple, comme nous l’avons déja suggéré dans nos études sur les 
voyelles nasalisées1!:1*, absence du formant particulier causée par 
Pabsorption de la cavité buccale est indispensable pour la discrimi- 
nation phonémique de certains sons nasaux. Ceci signifie qu’on doit 
admettre, dans les cas particuliers, que la prépondérance au sens 
négatif, c’est-a-dire la régression des amplitudes des composants de 
telle ou telle région, peut contribuer a létablissement de la qualité 
phonémique. 

Cependant, pour ce qui concerne les voyelles orales seulement, 
il n’est pas nécessaire d’insister sur l’existence du formant négatif. 
Par conséquent, faire la distinction entre «formant positif» et 
«formant négatif» est sans signification, au moins pour la présente 
discussion des voyelles orales. 

Finalement, nous voulons discuter un peu concernant les con- 
ditions les plus essentielles qui déterminent et conditionnent la for- 
mation des voyelles orales. Pour caractériser et classifier les voyelles, 
il y a sans doute une méthode qui s’appuie exclusivement sur les 
marques physico-acoustiques de leurs structures spectrales’*1, et 
qui probablement est nécessaire et urgente pour le probléme actuel 
de la discrimination automatique ou méchanique des sons de la 
parole. Il y a aussi une autre méthode qui est d’autant plus scienti- 
fiquement exacte qu’elle profite exclusivement du cété subjectif des 
paroles et souligne leur nature psychologique. 

Dans la description ci-dessus, nous avons employé la dénomi- 
nation des voyelles en nous basant simplement sur leurs formants: 
voyelle & formant unique et voyelle 4 deux formants. Sans doute, 
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cette dénomination est un peu conventionnelle, bien qu’elle soit trés 
facile 4 comprendre. Pour I’exprimer avec une plus grande exacti- 
tude, nous devons nous attacher a l’importance au lieu du formant. Par 
exemple, ce n’est pas exact d’appeler la voyelle «A» «voyelle a 
formant unique», parce qu’il y a évidemment plusieurs formants 
dans le patron du timbre de cette voyelle. En toute rigueur, nous 
devons l’appeler «voyelle 4 importance unique». De méme, au lieu 
de la dénomination «voyelle 4 deux formants», nous devons dire 
«voyelle a deux importances». 

Il va sans dire que la voyelle 4 importance unique signifie plus 
rigoureusement que cette voyelle posséde une seule et unique impor- 
tance positive, et davantage qu’en dehors de cette importance posi- 
tive, il y a deux importances négatives qui entourent l’importance 
premiére. De méme, la voyelle a deux importances signifie que cette 
voyelle est caractérisée par deux importances positives et une impor- 
tance négative intercalée entre les deux importances premiéres (voir 
la figure 1). Ces expressions-ci sont sans doute précises et générales. 
Les conditions données par les deux sortes d’importance, positive et 
négative, sont nécessaires et suffisantes. Donner l’importance posi- 
tive seulement, c’est la condition nécessaire pour caractériser les 
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Fig. 1. La représentation des patrons du timbre et la répartition des importances. 
a: Voyelle 4 formant unique; b: Voyelle 4 deux formants non-balencés. 
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voyelles, mais ce n’est pas suffisant. On doit donner l’importance 
négative en dehors de l’importance positive pour avoir a la fois les 
conditions nécessaires et suffisantes. 

En résumé, l’essentiel dans la considération de la qualité des 
voyelles et des paroles réside dans le dualisme de la qualité et non 
dans le monisme. Cette dualité de qualité est représentée par les 
qualités phonémique et vocalique suivant notre terminologie! 14:15, 
Le Prof. R. Husson emploie les termes «coloration vocalique» et 
«timbre extra-vocalique»?:3»4, Suivant sa terminologie, A. Moles 
utilise «personalisation» et «typification»*®. Bien que les termino- 
logies soient un peu différentes suivant les auteurs, il devient de plus 
en plus évident que l’on ne peut plus interpréter les structures for- 
mantiques des vocales par l’aspect monotone et primitif de l’unicité 
de la qualité. Cela signifie que nous ne devons pas rester au point de 
vue primitif dans linterprétation de l'information humaine. On 
doit avancer et adopter ici le dualisme: l’information intellectuelle et 
Pinformation émotionnelle. C’est tout ce qui est attribuable a la 
formation de la mentalité et 4 la nature de l’esprit humain. 

I] est trés difficile de donner la forme 4 la qualité, quelle que 
soit la signification de cette qualité. A plus forte raison, quand il 
s agit de la qualité de la parole, parce que la parole est le sommet de 
toutes les choses que les humains ont jamais crées et produites. 
Donner une forme particuliére 4 cette qualité et ensuite déterminer 
et mesurer sa grandeur, c’est une ceuvre, sans exagérer, infiniement 


difficile. 
Résumé 


Pour vérifier non seulement objectivement mais aussi subjec- 
tivement, le fait subsistant des deux qualités des vocales, c’est-a-dire 
la coexistence de la qualité phonémique et de la qualité vocalique, sous 
l’aspect de la structure du timbre, nous avons fait une suite d’expé- 
riences objectives et subjectives; expériences de nature physique: 
obtenir le type (ou patron) phonémique et le type (ou patron) 
vocalique des voyelles soutenues; expériences de nature psycholo- 
gique: mesurer a la fois la qualité phonémique et la qualité vocalique 
des voyelles. Pour la qualité du timbre, nous considérons exclusive- 
ment les signaux des voyelles en structure de fréquences ou en struc- 
ture des harmoniques. Afin d’étudier la structure du timbre des 
voyelles en connexion avec leurs qualités, il vaut mieux introduire 
une idée de qualité, la répartition de la qualité dans la dimension de 
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fréquences, comme base de la théorie de qualité. C’est dans ce but 
que nous utilisons la distorsion de suppression des bandes. En exami- 
nant /’allure des caractéristiques des qualités dans les deux distorsions 
des suppressions, de bas en haut et de haut en bas, nous pouvons ainsl 
atteindre la notion de la distribution des qualités au long de l’échelle 
de fréquences. Pour étudier de plus prés notre probleme sur Panalyse 
des qualités, nous adoptons ici de préférence la méthode d’obser- 
vation plus détaillée des confusions au sujet de la perception des 
voyelles déformées par la distorsion. Quant a la confusion du timbre, 
il y a essentiellement deux directions 4 considérer: confusion a entrée 
et confusion a la sortie. Pour la cause de la confusion qui parait, nous 
considérons: Quand un son est mis en déformation par une distorsion 
quelconque, ce son devient trés dissemblable du son original sans 
déformation (c’est-a-dire il sort du son original au sens de confusion) 
d’une part, et d’autre part, ce son devient semblable 4 un autre son 
quelconque (c’est-a-dire il entre dans un autre son au sens de con- 
fusion). Par cette observation compléte de confusion, on peut 
atteindre cette fois les notions les plus importantes de la qualité qui 
s’établit ou de la qualité qui se détruit a cause de la distorsion. Voila 
les notions d’importance positive et d’importance négative que nous pré- 
sentons ici. I] en résulte que pour les phonémes par exemple, il y a 
non seulement la région d’importances positives (ou région utile) mais 
aussi la région d’importances négatives (ou région nuisible). Quand 
une voyelle est prononcée convenablement, ses composants carac- 
térisants viennent naturellement dans la région utile et propre. Mais 
quand une voyelle est mal prononcée ou quand elle est déformée au 
cours de sa transmission et que ses composants principaux et carac- 
térisants viennent ou sont déplacés vers la région d’importance 
négative, il en résulte que cette voyelle est facilement confondue 
avec une autre voyelle dont la région utile coincide accidentellement 
avec la région nuisible de la voyelle premiérement considérée. 


Kur Analyse der Vokalqualitaten 


Kusammenfassung 


Um die unter dem Aspekt der Struktur der Klangfarbe zu unterscheidenden zwei 
Vokalqualitaten — phonemische und stimmliche — sowohl objektiv als auch subjektiv zu 
verifizieren, wurde eine Reihe physikalischer und psychologischer Experimente durch- 
gefiihrt. Bei den ersteren handelte es sich darum, den phonemischen und den stimmlichen 
Strukturtyp ausgehaltener Vokale zu bestimmen, bei den letzteren um die gleichzeitige 
Messung der phonemischen und der stimmlichen Qualitat der Laute. 
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Hinsichtlich der Qualitat der Klangfarbe betrachten wir ausschlieBlich die den 
Vokalen als Signal zuzuordnenden Frequenz- und Partialtonstrukturen. Um die Struktur 
der Klangfarbe im Zusammenhang damit zu untersuchen, empfiehlt es sich, als Grund- 
lage der Theorie der Qualitat den Gedanken einer Verteilung der Qualitat in der 
Dimension der Frequenz einzufiihren. Wir machen uns dabei die Verzerrungen zu- 
nutze, die aus der Beschneidung des Frequenzbereichs resultieren; untersucht man das 
Verhalten der aufsteigenden und absteigenden Qualitatskennlinien, so wird die Ver- 
teilung der Qualitaten iiber die Frequenzskala faBbar. 

Eine eingehendere Untersuchung unseres Problems macht die sehr detaillierte 
Beobachtung des Verhérens erforderlich, wie es bei verzerrten Vokalen auftritt. Es sind 
hauptsachlich zwei Formen der Klangfarbenverwechslung zu unterscheiden: initiales 
und finales Verhéren (confusion a l’entrée, confusion a la sortie). 

Uber die Ursachen des Verhérens lassen sich folgende Uberlegungen anstellen. 
Wird ein Laut durch eine beliebige Verzerrung entstellt, so wird er einerseits dem un- 
verzerrten Original sehr unahnlich (d.h. er geht im ProzeB des Verhérens aus dem ur- 
spriinglichen Laut hervor), andererseits einem anderen Laut sehr ahnlich (d.h. er 
geht im ProzeB des VerhGrens in einen anderen Laut iiber). Eine vollstandige Erfassung 
des VerhGrens ergibt also die auBerordentlich wichtigen Begriffe einer Qualitat, die bei 
Bandbeschneidung gebildet, und einer Qualitat, die bei Bandbeschneidung zerstért wird. 
Wir charakterisieren diesen Sachverhalt durch die Termini «positive Relevanz» (impor- 
tance positive) und «negative Relevanz» (importance négative). Die Phoneme besitzen 
beispielsweise nicht nur einen Frequenzbereich positiver Relevanz («niitzlicher Be- 
reich»), sondern auch einen solchen negativer Relevanz («schddlicher Bereich»). Bei 
richtiger Aussprache eines Vokals fallen seine charakteristischen Komponenten natiirlich 
in den niitzlichen, d. h. adaquaten, Bereich. Wird ein Vokal dagegen nicht korrekt 
ausgesprochen oder bei der Ubertragung deformiert, dergestalt, daB seine Haupt- 
komponenten und Charakteristika in Richtung auf den Bereich negativer Relevanz 
verschoben werden, so wird der Vokal leicht mit einem anderen verwechselt, dessen 
niitzlicher Bereich zufallig mit dem schadlichen Bereich des urspriinglichen Vokals 
zusammenfallt. 


Note on Analysis of Vowel Quality 


Summary 


In order to verify, objectively and subjectively, the existence of two qualities of 
vowel sounds, namely, phonemic quality and vocal quality, from the standpoint of timbre 
structure, we have carried out the following series of studies: experiments of physical 
nature in which we have given the phonemic patterns as well as the vocal patterns of vowel 
sounds, experiments of psychological nature in which we have given the phonemic 
quality as well as the vocal quality. With regard to the timbre qualities, here only we 
consider the vowel signals in frequency structure or in harmonic construction. In the 
theoretical consideration of the timbre-signal construction in association with the 
timbre quality, it is most fitted to introduce the idea of the distribution of quality in the 
frequency dimension. To this end, we purposefully utilize the distortion of band- 
elimination type. Judging from the forms of the characteristics of qualities in the two 
distortions of band-elimination, from low to high and from high to low, that is, from the 
increasing and decreasing forms of quality characteristics in the distortions, we can very 
easily attain the conception of quality distribution in the frequency dimension. In order 
to study this problem more precisely and to make clear the nature of quality more 
specifically, we have adopted here the method of observing so-called confusions as 
explicating the details of quality phenomena in distortion. As to the timbre confusion, 
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there are two ways of observation: incoming confusion and outgoing confusion. For the 
cause of timbre-signal confusion, we consider the case where a certain signal is so 
deformed that it is easily confused with some other signal. This deformed signal has no 
more resemblance to the original signal without distortion (that is, this signal goes out 
of the original signal or it starts from the original signal, in the terms of confusion), but 
this signal rather resembles some other signal (that is, in the terms of confusion, it arrives 
in some other signal). By a complete observation and description of confusion pheno- 
mena, it is finally possible to discover and attain the most important idea of quality, 
that is, the idea of the quality which is formed and the idea of the quality which is 
destroyed respectively, resulting from the band-cutting distortions applied. We can 
express these two ideas by positive importance and negative importance respectively. As a 
general outcome of our experiments, it can be said that for phonemes, for example, there 
is not only the frequency-region of positive importance (that is, useful region) but also the 
frequency-region of negative importance (that is, harmful region). We explain more 
concretely. When a vowel signal is pronounced properly, its characteristic components 
do not fail to come exactly into the useful region of this signal, which enables us to 
identify this signal properly. But when this signal is pronounced incorrectly or when 
a correctly pronounced signal is deformed to some measure by some distortion in trans- 
mission, thus having its powerful components displaced towards the harmful region, this 
signal would easily be confused with some other signal, because the useful region of the 
latter signal coincides incidentally with the harmful region of the former. 
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The Nagoya Group of Research on Speech Communication 


A Review of Some of their Publications 


A considerable number of research groups in Japan are currently undertaking 
work on problems of speech communication, but few of them report their results in 
Occidental languages. The group led by Professor Yoshiyuki Ochiai at the Laboratory of 
Audiology, Nagoya University, Nagoya, however, does report its research progress in 
English, French and German. A selection of reprints of publications of members of the 
Nagoya group was sent to this Journal for review, and the undersigned, who is now at the 
Massachusetts Institute of Technology on leave from the University of Electro-Com- 
munications in Tokyo, was asked to be the reviewer. The titles of the papers received are: 

Y. Ochiai and H. Kato: Sur la netteté et la naturalité de la voix humaine réfléchies 
du point de vue de la qualité de transmission. Memoirs of the Faculty of Engineering, 
Nagoya University (M.F.E.) J: 109-115 (1949). 

Y. Ochiai: Mémoire sur les sons des voix humaines. M.F.E. 4: 83-86 (1952). 

Y. Ochiai: Memoirs on nasalics. M.F.E. 9: 147-153 (1957). 

Y. Ochiai; T. Fukumura and K. Nakatani: Timbre study on nasalics, Part II: Pre- 
liminary experimental representation of timbre-patterns of sustained nasals. M.F.E. 9: 
160-173 (1957). 

Y. Ochiai: Fondamentales des qualités phonémique et vocalique des paroles par 
rapport au timbre, obtenues en employant des voyelles japonais vocalisées par des sujets 
jJaponais. M.F.E. 10: 197-201 (1958). 

T. Fukumura: Quality problems in perception of repeated damped-sinusoids. M.F. E. 
11; 112-120 (1959). 

Y. Ochiai and M. Oda: Sur Vintensité sonore subjective des vocales soutenues ayant 
les significations phonémique et vocalique. M.F.E. /7: 103-111 (1959). 

Y. Ochiai: Etude plus détaillée sur l’'enveloppe des patrons du timbre des vocales 
orales, particuliérement au point de vue de la structure des vallons. M.F.E. JJ: 89-102 
(1959). 

Y. Ochiai: Phoneme and voice identification studies using Japanese vowels. Language 
and Speech 2: 132-136 (1959). 

Y. Ochiai and T. Fukumura: On the fundamental qualities in speech communica- 
tions, principally on vowel quality. Technical Report of Research Developments at the 
Electric Communication Laboratory of Japan Telephone-Telegraph Co. 8: 1469-1549 
(1959) (in Japanese). 

Although the titles of the papers cover a variety of topics, it is clear that all of the 
investigations undertaken by Dr. Ochiai’s group were designed to answer one basic 
question: What are the “fundamental qualities” of speech sounds and what are their 
acoustic correlates? By “fundamental qualities” they mean not only the quality which 
determines phonemic identity, but also the qualities that constitute naturalness of speech 
sounds. As one important and measurable aspect of naturalness, they selected speaker 
identifiability, in the hope that study of the factors relating to the identification of the 
speaker by means of psycho-acoustic experiments would reveal the nature of voice quality 
on the acoustic level. From the point of view of communication engineering they assert, 
quite correctly, that besides phonemic identity, there are some other “qualities” that 
must be retained in the message. They propose that speaker identifiability is one of the 


Aes useful measures for evaluating cummunication channels, particularly those of high 
elity. 
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The experiments of the group have chiefly exploited two techniques: frequency 
analysis and listening tests. Analysis methods have been standard, including the use of 
the sonagraph in recent years. Vowel utterances of a limited number of speakers have 
been studied intensively and spectral peculiarities were examined for various conditions 
of vocalization in the course of searches for the acoustic correlates of voice quality as well 
as the cues for phoneme identification. Similar studies were made of nasal consonants 
and nasalized vowels with emphasis on the function of the nasal cavity as a determinant 
of voice quality. The psychoacoustic tests typically utilized vowels spoken in isolation and 
required the listeners to identify both the phoneme and the talker. In a series of studies 
systematic spectral distortion of the signals was introduced. The major objective of this 
psychoacoustic testing program was to observe the errors the subjects made. Confusion 
matrices of the subjects’ responses are presented in detail and are analyzed to determine 
the contribution to the phoneme and speaker identification of various frequency com- 
ponents. 

The detailed discussions of data in these papers contain many interesting sug- 
gestions. The experimental data they have provided constitute a useful source of infor- 
mation for the workers in this field. Some of their results, e.g., that the effect of spectral 
distortions on the accuracy of speaker identification is substantially different from that 
on vowel identification, are not of little significance. 

The reports suffer, however, from a terminology that is misleading or vague and 
whose physical meaning is not clarified thoroughly. It sometimes is difficult to draw a 
clear-cut conclusion from their arguments, and some of their apparent conclusions may 
invite controversy. Ambiguity stems partly from the statement of the problem itself. 
Without defining the “‘fundamental qualities,” either on the level of production or per- 
ception, it is hard for anyone to discuss, in any language, what their manifestations are 
in the spectral structure or what role they play in speaker identification. 

Apparently, Professor Ochiai hoped somehow to find the solution of the most difficult 
basic problem in the patterning of the experimental results. The experiments were 
designed with a broad interest involving many aspects of the general problem rather 
than in such a particular manner that the results would either corroborate or refute a 
specific hypothesis or a model. While the former approach to many complex problems 
seems to be rather common in groups in many countries, the results of the present 
elaborate studies suggest that it is not a promising methodology for advancing funda- 
mental knowledge in this field. The weakness of the approach is more apparent, but 
perhaps less harmful, when there is not an overpowering quantity of mechanically pro- 
cessed data. 

The work of this group would have been much more illuminating, at least for some 
readers, if more confidence had been displayed in the acoustic theory of speech produc- 
tion. There is little doubt, with our present understanding of the speech production 
mechanism, that the phonetic value of the vowel, which can be described reasonably 
accurately by a set of about three lower formant frequencies, carries the principal infor- 
mation necessary for phoneme identification. But the phonetic value of a speech sound 
is not necessarily irrelevant to speaker identification. Even within a dialectically uniform 
community, there certainly is fluctuation which characterizes individual speakers. This 
characteristic of a speaker, however, is essentially different from what we would call his 
personal “‘voice quality,” e.g., a “‘ringing”’ quality of his voice. 

It would have been quite reasonable, therefore, if the phonetic value of the vowel 
had been separated from the rest of the spectral features as an independent dimension 
which can be described quantitatively. The so-called voice quality, as far as spectral 
aspects are concerned, can be defined rigorously as the remainder of the spectrum after 
subtracting the resonant characteristic that is determined, for example, by the best 
fitting formants with some standard damping. This measure, of course, is not always 
attributable only to the characteristics of the glottal source wave. It is possible that a 
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subsidiary articulatory feature (e.g., slight nasalization, or a peculiarity of glottal action) 
which is always associated with the production of some (or all) vowels of a particular 
speaker gives rise to a concomitant acoustic (gross) feature (elg93 highly nae oe for- 
mants). In discussing the nature of the subjectively perceived “voice quality there is 
perhaps no reason to separate the acoustic consequence of the subsidiary articulatory 
features from the voice source characteristics — a point of view that the authors seem to 
take. The voice quality as tentatively defined above, could be evaluated in terms of such 
measures as high frequency-low frequency balance, statistically defined local irregulari- 
ties, etc., and will primarily pertain to speaker identification. The contributions to the 
speaker identification of these features and of the phonetic value (if such contribution 
exists) may be estimated by the psychoacoustic techniques the Nagoya group has 
employed. It would be most desirable, however, if an indisputable proof can be supplied 
by data concerning subjects’ responses to synthesized speech sounds, the pertinent 
acoustic features of which are precisely and selectively controlled. 

The examination of speech sounds in the frequency domain, ignoring non-stationary 
characteristics in the time domain, may not enable us to determine all the acoustic 
correlates of voice quality. Among other effects, the contribution of a glottal fluctuation 
to speaker identifiability must be studied in the future. 

It may be worth mentioning that the Nagoya group is one of the oldest speech 
groups in Japan; today there are many other groups with different inclinations and 
experimental techniques. In view of their respectable achievements and research poten- 
tial, it is sincerely hoped that these groups will spend more time in communicating with 
western researchers. Sometimes the language barrier is not easy to overcome, but it is to 
be hoped that western readers will demonstrate understanding interest so that any sincere 
effort in this direction may be encouraged. The reviewer will be happy to supply any 
information which may be helpful for correspondence. As a general reference, it may be 
advised that the Journal of the Acoustical Society of Japan, published quarterly in 
Tokyo, occasionally carries interesting papers in this field, written in Japanese but with 
English abstracts. 


Author’s address: Prof. Osamu Fujimura, University of Electro-Communications, Chofu City, 
Tokyo (Japan). 


Aktuelle Probleme der Phoniatrie und Logopidie. Vol. 1. S. Karger Basel/New York 
1960. XVIII + 226 S., 74 Abb., sFr. 38.-. 


Der vorliegende Band ist als Festgabe dem hochverdienten Ziircher Phoniater 
Richard Luchsinger zam 60. Geburtstag gewidmet. Der Herausgeber, Felix Trojan, Wien, 
umreiBt im Vorwort die Zielsetzung des Werkes: die Mittelpunktstellung der Phoniatrie 
und Logopadie im Kreise einer Anzahl von Wissenschaften dadurch sinnfallig zu ma- 
chen, daB jeder einzelne Aufsatz ein Thema behandelt, das die Sprach- und Stimm- 
heilkunde jeweils zu einer Nachbarwissenschaft in Beziehung setzt. 

Der internationale Rang des Werkes wird durch ein zweites und ein drittes Vorwort 
der derzeitigen Prasidentin der Internationalen Gesellschaft fiir Logopadie und Pho- 
niatrie, Joan Van Thal, London, und 7. Tarneaud, Paris, unterstrichen. Jedem der Bei- 
trage, die in drei Sprachen vorliegen, sind Zusammenfassungen in deutscher, englischer 
und franzésischer Sprache beigefiigt. 

Der Lebenslauf und ein Verzeichnis der wissenschaftlichen Arbeiten von R. Luch- 
singer, das 100 Veréffentlichungen auffihrt, lassen erkennen, daB der Jubilar heute als 
eeieo wie als Organisator zu einem Mittelpunkt der Welt seines Faches geworden 
ist. 


Der Band gliedert sich in drei Abschnitte, in welchen die Verbindungen des Fach- 


Libri 163 


gebietes zu den Nachbardisziplinen unter drei Aspekten — A. dem physiologischen, 
B. dem physikalischen und C. dem psychologischen — behandelt werden. Von den 
30 Beitragen hervorragender Fachvertreter kénnen bei der Mannigfaltigkeit der Themen 
in einem kurzen Referat nur einige Punkte herausgegriffen werden. 


A. Der physiologische Aspekt in der Phoniatrie und Logopddie 


Die ersten Beitrage sind Stellungnahmen zu Fragen aus dem Problemkreis der 
nervosen Steuerung der Stimmlippenschwingung, wie sie anlaBlich der Kontroverse um 
sae von Husson in den letzten Jahren in den Vordergrund der Diskussion getreten 
sind. 

Lullies und Paulsen untersuchen die afferenten Nervenimpulse, welche von Rezeptoren 
der Muskulatur und besonders der Schleimhaut des Kehlkopfs ausgelést werden und auf 
reflektorischem Wege die Stimmbandschwingungen beeinflussen. Die Bedeutung solcher 
Afferenzen fiir die Phonation besteht in der reflektorischen Unterstiitzung der Fein- 
einstellung der Spannung und Lange der Kehlkopfmuskeln und damit auch der Re- 
gelung der Frequenz der Stimmbandschwingungen. 

Vallancien kommt zu ahnlichen SchluBfolgerungen bei der Auswertung réntgenkine- 
matographischer Ergebnisse. Danach kénnen die Vorgange an der Glottis beim Gesang 
durch aerodynamische Gesetze ausreichend erklart werden. 

Van den Berg beschaftigt sich mit den Registern der Singstimme im Zusammenhang 
mit den Eigenschaften der Stimmbander sowie des Aufhangesystems des Larynx und 
der aerodynamischen Verhaltnisse. Er kommt zu dem SchluB, daB die Langsspannung 
der Stimmbander sowie der Stimmuskeln diejenigen Parameter sind, die die Haupt- 
register entscheidend beeinflussen. 

Arbeiten aus dem Gebiet der Genetik und der physiologischen Phonetik schlieBen 
sich an. 

Pfandler behandelt Ergebnisse der phoniatrischen Erbforschung und belegt anhand 
eines neuen italienischen Stammbaumes die Moéglichkeit eines gemeinsamen genetischen 
Ursprunges von Poltern und Stottern. 

Die Beziehungen des Vokalismus zu den Registern betrachtet F. Trojan unter dem Ge- 
sichtswinkel der « Entwicklungsphonetik». Er deutet, in Fortftihrung seiner bereits 1950 
aufgestellten These, den Vokalismus als Superstruktur auf der Basis der Register. Ein 
Orientierungsversuch an amphoteren Sprechténen (Sprechen von «I» und «U» sowohl 
mit vorwiegendem Brust- als auch mit Kopfregister) und seine réntgenologisch erhobe- 
nen Ergebnisse (AusmaB der Lageveranderungen im Mundrachen und Kehlraum) 
werden mitgeteilt. Die Arbeit verdient das besondere Interesse des Stimmbildners, der 
erfahrungsgemaB schon immer zur Erzielung eines fehlenden Kopfklanges bei der Voix 
mixte zu Vorderzungenvokalen gegriffen hat, ohne daB bisher eine ausreichende theo- 
retische und experimentelle Klarung dieser Zusammenhange vorgelegen hatte. 

Physiopathologische und chirurgische Beitrage schlieBen den ersten Abschnitt ab. 

Frau Mitrinowicz-Modrzejewska zeigt anhand genauer klinischer Untersuchungen, 
daB man das Gaumenspaltenleiden heute nicht mehr als isoliert umschriebenen Defekt 
sehen darf, sondern im Rahmen einer gesamtkérperlichen Beriicksichtigung als System- 
leiden auffassen mu8. Zahlreiche andere Abnormitaten der Spalttragerpersénlichkeit 
lassen sich aufdecken. Der Referent méchte auf diese Arbeit besonders hinweisen, da 
eine ganzheitlich ausgerichtete logopadische Betreuung, wie wir sie heute anstreben, 
durch die vorgelegten Untersuchungsergebnisse auf eine breite Basis gestellt werden 
kann. 

Mit der chirurgischen Versorgung des Spalttragers befaBt sich Croatto, der tber die 
Resultate seiner schon friiher angegebenen Operationsmethode berichtet, welche durch 
Verdopplung der hinteren Pharynxwand eine Verbesserung des velo-pharyngealen 
Abschlusses und damit eine giinstige Beeinflussung des offenen Naselns erméglicht. 
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Spezielle Probleme der Kehlkopfchirurgie behandelt Perello; Fragen der sprachlichen 
Rehabilitation nach Zungenentfernung (Glossektomie ) werden von Brodnitz er6rtert. 


B. Der physikalische Aspekt in der Phoniatrie und Logopadie 


Berendes nimmt zur Meftechnik bei der Auswertung von Kehlkopf-Hochgeschwindighetts- 
filmen kritisch Stellung. Er fordert sowohl Messung der Stimmlippenabstande von der 
Mittellinie als auch Flachenmessung des Glottisbildes (Planimetrie ), da — insbesondere 
bei unregelmaBiger Gestalt der Glottis — die Anwendung nur éiner Methode zu falschen 
Ergebnissen fiihren kann. Abstandsmessung und Flachenmessung miissen einander 
erganzen. 

Svend Smith berichtet iiber einen neuen Apparatetypus (Aerometer), der es erstmals 
erlaubt, die Volumgeschwindigkeit der Luftstrémung durch Mund und Nase (Luftmenge in der 
Zeiteinheit) minutenlang ununterbrochen getrennt zu registrieren. Eine funktionelle 
Bestimmung der Nasenatmung ist dadurch méglich geworden. 

Ein Verfahren zur getrennten Aufzeichnung des nasalen und oralen Schalldruckes gibt 
Krecht an. Es handelt sich um eine Weiterentwicklung der Methode Doubek. Der orale 
und der nasale Schalldruckanteil werden mittels eines Zweikanalmagnettongerats uber 
isolierte Kristallmikrophone durch einen Dampfungsschreiber getrennt aufgezeichnet. 
Wenn das Verfahren auch keine unmittelbaren Aussagen tiber die Nasalitat zulaBt, so 
diirften die gewonnenen Schalldruckdifferenzen in db doch dazu beitragen, sich dem 
Komplex der Nasalitat von einer Teilkomponente her zu nahern, und dariiber hinaus 
gibt es uns eine Méglichkeit an die Hand, phoniatrische und logopadische Ergebnisse 
(z. B. Operationserfolge) zu normieren und exakt zu vergleichen. 

Winckel betont in seinem Beitrag tiber die Grenzanalyse des Komplexlautes, daB fir das 
Studium der Lautbildung die Spektralanalyse des quasistationaren Lautzustandes zwar 
wertvolle Einblicke in die akustische Struktur der Einzellaute vermittelt hat, daB sie 
jedoch dem dynamischen Charakter der Stimme und Sprache im flieBenden Lautstrom 
nicht ausreichend gerecht wird. Sowohl beim Sprechen als auch beim Singen finden 
standig Veranderungen der Tonhdhe, der Lautstarke und — das erscheint besonders 
wichtig — auch der Formantfrequenzen statt. Die gegenseitige Beeinflussung benach- 
barter Laute im Lautstrom ist so betrachtlich, daB es beispielsweise nicht gelingt, aus 
einem besprochenen Tonband Vokale und Konsonanten herauszuschneiden und zu 
andern Wortern zusammenzusetzen. Fiir gewisse Konsonanten ist gezeigt worden, daB 
sie gar keine selbstandigen Gebilde sind, sondern wirkliche Ubergange (transients) 
darstellen. Unter diesen Aspekten miissen sowohl fiir die Analyse als auch fiir die Syn- 
these die Ausgleichvorgange beriicksichtigt werden und dariiber hinaus die phonemischen 
bzw. sogar die Silbeneinheiten als maBgeblich fiir die physiologisch entsprechende 
Artikulationsdynamik angesehen werden. 

Tarnéczy gibt phonetische Gesichtspunkte bekannt, die bei der Zusammenstellung 
von Textlisten fiir Versténdlichkeitsmessungen zu beriicksichtigen sind. Um die Kombina- 
tionsfahigkeit der Horer, welche das Ergebnis einer Verstandlichkeitsmessung nach der 
positiven Seite verfalschen kénnte, auszuschlieBen, miissen die Verstandlichkeitstexte 
zwar den Lautverbindungsgesetzen einer Sprache folgen, diirfen sich aber nicht nur auf 
die tatsachlichen, in der Wortbildung gebrauchten Méglichkeiten der Sprache be- 
schranken. So empfiehlt Tarndczy nebeneinander — bei gleicher GesetzmaBigkeit — 
sinnvolle und sinnlose Lautfolgen, welche auf Grund einer statistischen Bearbeitung 
einer Einzelsprache zusammengestellt sind und die Lautverbindungsgesetze dieser 
Sprache widerspiegeln. 

Von groBer Bedeutung fiir den klinisch tatigen Laryngologen sind die stroboskopi- 
schen Befunde bei friihen Stadien von Stimmbandkarzinom und Tuberkulose. Schénharl, dem wir 
eine inzwischen erschienene Monographie iiber die Stroboskopie verdanken, stellt hier 
folgenden Grundsatz auf: Nicht jeder stroboskopische Stillstand einer Stimmlippe muB 
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notwendig einen bésartigen Tumor oder eine Tuberkulose bedeuten, jedoch wird um- 
gekehrt jeder Tumor und jeder Tuberkulosefall eine auffallende Bewegungseinschran- 
kung bzw. einen Stillstand der Stimmlippenbewegung aufweisen. Daraus ergibt sich die 
Wichtigkeit der stroboskopischen Untersuchungsmethode fiir die Fritherfassung gefahr- 
licher Kehlkopferkrankungen. 


C. Der psychologische Aspekt in der Phoniatrie und Logopidie 


Der dritte Teil des Werkes umfaBt zunachst Aufsitze aus den Grenzgebieten der 
Neurologie und Psychiatrie, um den engen Zusammenhang der seelischen Vorgiinge mit 
dem Zentralnervensystem zu unterstreichen. 

Er wird eingeleitet durch ein phoniatrisch-neurologisches Grundsatzreferat von M. Seeman, 
in welchem die zahlreichen Querverbindungen zwischen den beiden Fachern angedeutet 
werden. 

Wir wissen heute, daB dem Stottern — einem in sich sehr uneinheitlichen Sympto- 
menkomplex — in vielen Fallen als Teilursache eine frithkindliche Hirnschadigung 
zugrunde liegt. R. und A. Schilling teilen eine Reihe von Spezialuntersuchungen und 
deren Ergebnisse mit, die geeignet sind, den neurologisch-phoniatrischen Befund zu 
erganzen und die Diagnose eines friihkindlichen Hirnschadens bei Stotterern zu erharten. Es 
handelt sich um das Elektroenzephalogramm, das Nystagmogramm, die Untersuchung 
der Feinmotorik nach dem Oseretzky-Test, die Messung der Vibrationsempfindung, die 
R6ntgenzwerchfellkymographie und Lateralisationsproben. 

Mit Lateralisationsproben (Untersuchung der Handigkeit), Reifezeichen und der Elektro- 
enzephalographie beschaftigt sich auch die Arbeit von Subirana und Oller-Daurella. Die 
aufgezeigten Beziehungen der Reifezeichen zur Hemispharendominanz diirfen als inter- 
essanter Beitrag zu dem immer noch weitgehend ungeklarten Fragenkomplex der patho- 
logischen Linkshandigkeit und ihrer Zusammenhange mit Sprachstérungen besonders 
hervorgehoben werden. 

Weiss fand einen iiberraschend hohen Prozentsatz von Stammelfehlern bei Schizo- 
phrenen, vor allem Sigmatismen. Das Stottern war nicht haufiger als in der Durchschnitts- 
bevolkerung. 

Einen kasuistischen Beitrag zum autistischen Kindheitsmutismus verdanken wir 
Arnold. Unter dem Titel «Schreiben statt Sprechen» beschreibt er das Krankheitsbild eines 
vierjahrigen Knaben, der unfahig war zu sprechen, der jedoch iiber eine ungewohnliche 
Fertigkeit im Lesen, Schreiben, Buchstabieren sowie im Ausschneiden von Buchstaben 
und Ziffern aus Papier verfiigte. Arnold weist darauf hin, daB vorzeitige Reife umschrie- 
bener Partialaktionen, welche den Eindruck einer iiberlegenen Intelligenz oder gar eines 
sich friihzeitig manifestierenden Genies erwecken kann, den Verdacht auf einen ernsten 
pathologischen ProzeB psychischer, zerebraler oder endokriner Natur zulaBt. 

Grewel und Margadant-Mainz analysieren einen Fall von Lese- und Rechtschreibschwache 
und betonen, daB man sich mit der Feststellung einer «Entwicklungsdyslexie» nicht 
zufriedengeben darf. In jedem Fall wird eine griindliche neurologische und experimental- 
psychologische Untersuchung gefordert. Bei dem beschriebenen 9jahrigen Knaben 
konnte auf diese Weise festgestellt werden, daB der «Leseschwache» in diesem Fall 
eigentlich gar keine Lesestérung zugrunde lag, sondern eine ungentigende akustische 
Diskriminationsfahigkeit, Aufmerksamkeitsschwache sowie ein unzureichender innerer 
Sprachaufbau. Diese Funktionen wurden beim Lesen und Schreiben so in Anspruch 
genommen, daB fiir das Verstehen des Gelesenen im ProzeB der distributiven Apperzep- 
tion keine Energie mehr tibrigblieb. 

Frau Borel-Maisonny beleuchtet aus psychologischer Sicht Vorgdnge bei Zusténden krank- 
haft gestorter Sprachentwicklung. Dabei zeigt die Pathologie die Prozesse der Integration in 
verlangsamtem Ablauf, wodurch die normalen Mechanismen erhellt werden kénnen. 
Eines der mitgeteilten Beispiele betrifft eine 20jahrige Patientin mit zentralen Sprach- 
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entwicklungsstérungen im Gefolge einer beidseitigen hochgradigen Schwerhérigkeit- 
Ein otochirurgischer Eingriff verbesserte zwar das Hérvermégen betrachtlich, ohne 
jedoch die Fahigkeit zur Integration der Sprache zu verbessern. Man muBte auf ver- 
schiedene analytische Verfahren zuriickgreifen, um ihr die Rede verstandlich zu machen. 
Die Desintegrationen der Sprache gehorchen indes andern Gesetzen, und der Auf bau 
der Sprache zieht aus analytischen Rehabilitationsmethoden nur wenig Nutzen. Die 
Sprachfunktionen haben die Tendenz, sich global wiederherzustellen. Die vorliegende 
Arbeit ist von besonderem Interesse fiir den Phoniater, der sich mit Hortraining be- 
schaftigt, einem Gebiet, welches bei uns zurzeit im Vordergrund des Interesses steht. 
Die Ergebnisse decken sich mit unsern Erfahrungen bei der « Horerziehung » nach h6r- 
verbessernden Operationen und unterstreichen den Grundsatz, daB die Verbesserung 
des Gehérs fiir den gestérten Spracherwerb alleine nicht ausreicht, sondern von einem 
psychologisch und padagogisch ausgerichteten Hortraining erganzt werden muB. 

Van Riper bespricht die Faktoren, welche dem Stammler die Selbstkontrolle erschweren. 
Er nimmt an, daB beim Kind die akustische Selbstkontrolle, beim Erwachsenen hingegen 
propriozeptive Riickkoppelung ttberwiege. Dementsprechend wird fiir die Sprach- 
behandlung vorgeschlagen, die eigene Lautung des Patienten und die des Therapeuten 
gleichzeitig zum Vergleich und zur Korrektur dem Patienten dichotisch zuzuleiten. 
Spater sollte der neuerworbene Laut unter Vertaubung geiibt werden, so daB die pro- 
priozeptive Kontrolle wiederhergestellt wird. Wahrend ahnliche Verfahren bei der 
Behandlung von Stotterern auch in Deutschland teilweise schon angewendet werden, 
sind sie nach Wissen des Referenten bei uns in die Stammlerbehandlung noch kaum 
eingedrungen. Die Ausfiihrungen von Van Riper sind geeignet, den Logopaden zur Aus- 
einandersetzung mit der Gedankenwelt der Kybernetik anzuregen und stellen eine 
Bereicherung unserer therapeutischen Moéglichkeiten bei der Behandlung von Stamm- 
lern dar, insbesondere in solchen Fallen, in denen eine akustische Agnosie oder ahnliche 
Zustande bei der Entstehung des Stammelns im Spiele ist. 

Nach Beebe und Froeschels ist allein aus der Beachtung gewisser Stottersymptome 
eine differentialdiagnostische Abgrenzung des genuinen Stotterns vom Nachahmungsstottern 
méglich. Nachahmungsstottern wird oft verkannt. 

Freund lenkt die Aufmerksamkeit auf das interessante Phanomen des Stotterns im 
Traume und erértert die Griinde, warum die Psychoanalyse bisher zu diesem Gebiete so 
wenig beigetragen hat. 

Der fiihrende Sprachpsychologe Friedrich Kainz erlautert einige Méglichkeiten zur 
Erleichterung der Sprechhandlung, wie sie instinktiv angewendet werden, wenn der normaler- 
weise glatt verlaufende Sprechvorgang aus irgendwelchen Griinden erschwert oder im 
Extremfall pathologisch gestért ist. Bei Storungen der Artikulomotorik, die meist durch 
zentrale Hemmungen mitverursacht sind, wird vorzugsweise das Hilfsmittel des Stakkato- 
sprechens, des Wort- und Silbendivisionismus sowie der Pausensetzung zum Einsatz 
gebracht. Wenn hingegen durch zégernde Gedankenarbeit das innersprachliche Ge- 
schehen nicht rasch genug ein Diktionskonzept zur Verfiigung stellt, kommt es haufig 
zu einer Dehnung der Rede sowie zum Ausfiillen der Leerstellen durch Embolophrasien 
und «Embolophonien». 

Kandler méchte der angewandten Sprachwissenschaft einen gebiihrenden Raum 
in der Sprachheilkunde eingeraumt wissen und betont, daB der Briickenschlag zwischen 
Linguistik und Phoniatrie zwar oft berufen, jedoch vielleicht zu selten verwirklicht wurde. 
Er zeigt 3 Stufen der Zusammenarbeit auf (1. Mitteilung sprachwissenschaftlicher Er- 
gebnisse an den Fachmediziner, 2. Mitarbeit des Sprachwissenschaftlers an spezifisch 
sprachlichen Aufgaben der Medizin, z. B. am Aphasieproblem, und 3. Mitwirkung des 
Sprachwissenschaftlers an der tieferen Deutung von Sprachst6rungen). So konnte bei- 
spielsweise die linguistische Analyse einen Fall von angeblich gestorter Raumorientierung 
als Amnesie deutschsprachlicher Dimensionssysteme aufklaren, Die angefiihrten Beispiele 
belegen die Notwendigkeit einer Zusammenarbeit und lassen erkennen, daB beide 
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Disziplinen, die Medizin und die Linguistik, durch Nutzung der gegenseitigen Méglich- 
keiten fruchtbare Ergebnisse erhoffen diirfen. 

Van Thal nimmt zu Fragen der Ausbildung von Logopdden Stellung. 

Zur Beurteilung einer stimmlichen Leistung reicht die phonetische und laryngologische 
Untersuchung nicht aus. Dies hebt Tarneaud hervor. Er fordert eine phoniatrische Unter- 
suchung, die das psychologische, musische und physiologische Moment in gleicher Weise 
beriicksichtigt. 

Ein Beitrag zur Taubstummenpéddagogik schlieBt das Werk ab. Zaliouk beschreibt 
Stimmstérungen bei Taubstummen, welche als Folge der fehlenden Riickkoppelung und 
damit der defekten Selbstkontrolle verstanden werden. Die Stimme wird dadurch hoch, 
schrill und kann sich bis zu einem spastischen Falsett steigern. Zur Behandlung der 
hartnackigen Falsettstimme hat Zaliouk eine vornehmlich taktil orientierte Methode 
entwickelt, welche hier beschrieben wird. 

Trotz der Fiille des Gebotenen und der Verschiedenartigkeit einzelner Beitrage 
tritt uns das vorliegende Werk als geschlossenes und abgerundetes Ganzes entgegen, da 
sich alle Aufsatze unter den eingangs charakterisierten drei Hauptaspekten einordnen. 
Der Leitgedanke, daB jede Arbeit die Querverbindung zu einer Nachbarwissenschaft 
herstellen soll, sichert dem Werk eine vielseitige Verankerung im Raum der jiingsten 
wissenschaftlichen Forschung. Man darf dem Band bestatigen, daB er einen Querschnitt 
durch den derzeitigen Stand der Probleme in der Phoniatrie und Logopadie vermittelt. 


A. Schilling, Marburg a.d. Lahn 


Raoul Husson: La voix chantée (Commande cérébrale des cordes vocales; Classification 
chronaximeétrique des tessitures; Mécanismes protecteurs du larynx; Analyse 
physiologique des techniques vocales et des grandes méthodes pédagogiques). 
Avec une Préface de M. le Dt André Moulonguet, membre de l’ Académie de Méde- 
cine. Herausgegeben von Gauthier-Villars, Paris 6° 1960. XVI + 205 p., 96 Abb., 
ausfiihrliche Bibliographie, broschiert, 23,00 NF. 


Die Schrift des bekannten Pariser Forschers auf dem Gebiete der Stimmbildung 
reprasentiert die Synthese der in den letzten zwanzig Jahren und besonders intensiv 
seit 1952 den Problemen der Stimme beim Sprechen sowie beim Gesang gewidmeten 
Arbeiten des Autors. Diese Arbeiten bringen zwar individuelle, manchmal von der 
tradierten klassischen Lehre iiber die Art der Tatigkeit des Sprechorgans abweichende 
Ansichten des Autors, stiitzen sich jedoch in jedem einzelnen Falle auf eine gewissenhaft 
durchgefiihrte experimentelle Untersuchung, gréBtenteils unter Mitarbeit von Fach- 
leuten auf dem Gebiet der Physiologie. Die Grundthese des Autors bildet die Lehre, 
daB die «Schwingungen» der menschlichen Stimmbander nicht durch den Druck 
subglottischer Luft erzwungene Bewegungen sind, sondern durch vom Gehirn geregelte 
neuro-muskulare Aktivitat hervorgerufen werden. Hussons Feststellungen bedeuten 
naturgem4B einen tiefen Eingriff nicht nur in die bisherige Lehre tiber die Tatigkeit der 
Stimmbdander, sondern auch in die Behandlung von Stimmdefekten. 

Diese seine erste synthetisch eingestellte Schrift widmete Husson der Gesangstimme 
und richtete sein Augenmerk vor allem auf die Bediirfnisse des Sangers und des Gesangs- 
padagogen. Er wollte auf diese Weise den zahlreichen Kiinstlern aus der Réunion der 
Théatres Lyriques Nationaux frangais und den Schiilern und den zahlreichen Gesangs- 
professoren an dem Conservatoire de Paris, welche sich fiir seine Versuchsarbeiten zur 
Verfiigung stellten, seinen Dank ausdriicken. Trotz dieser seiner Einstellung zu der 
Gesangs- und der padagogischen Praxis erleidet seine Fachlichkeit jedoch keinen Ab- 
bruch, so daB sowohl die Physiologen als auch die Arzte von der Schrift mit Erfolg Ge- 
brauch machen kénnen. Sie ist und bleibt vor allem eine Schrift iiber Physiologie und 
Akustik der Phonation. 
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Der erste Teil von Hussons Schrift enthalt in 4 Kapiteln die wesentlichsten Erkennt- 
nisse aus den neuesten Forschungsergebnissen tiber Phonation; er ist daher der umfang- 
reichste (er nimmt beinahe 100 S. ein). Im ersten Kapitel wird das Funktionieren der 
Stimmbander erlautert, deren periodisches Offnen durch Nervenimpulse geregelt wird. 
Es werden hier die wichtigen Forschungsergebnisse von Goerttler, Moulonguet, Portmann, 
Krmpotié, Fabre, Sabouroud, Gremy usw. erwahnt. Im zweiten Kapitel werden die Teilnah- 
me und der EinfluB der supraglottischen Héhlen bei der Phonation erortert, und zwar in 
Ankniipfung an die neuesten Forschungsergebnisse des franzdsischen Physikers i Rocard. 
Das dritte Kapitel behandelt die inneren Empfindungen des Sangers beim Gesang, die 
bisher des éfteren als Anzeichen von «Psychopathien» angesehen wurden; diese Emp- 
findungen erméglichen dem Subjekt vorteilhafte tonische Reflexe und fig ne zur Ver- 
gegenwartigung des von Soulairac 1955 definierten sogenannten «schéma corporel 
vocal» bei. Das vierte Kapitel ist der Phonationsphysiologie des Wervus reccurrens, des 
motorischen Nervs der Stimmbander, gewidmet. Die Exzitabilitat dieses Nervs bildet 
die Grundlage fiir die Klassifizierung des Sangers vom Gesichtspunkt der Stimmh¢éhe 
(wahrend das Timbre und die Intensitaét in dieser Richtung unabhangig bleiben). 
Diese Konsequenz der Forschungsergebnisse Hussons wird manchmal als zu spekulativ 
angesehen; in Wirklichkeit kann sie direkt in der Praxis ausgenutzt werden (so hat in 
diesem Jahr das Moskauer Staatskonservatorium einen Chronaximeter fiir Zwecke der 
Gesangspadagogik angekauft). 

In den angefiihrten Kapiteln sind neben anderen zwei «mécanismes protecteurs» 
des Stimmorganismus klargestellt. Der erste von diesen Organismen ist die Deckung 
offener Laute («converture des sons ouverts»), den Sangern unter der Bezeichnung 
«passage» bekannt. Der zweite ist «l’impédance ramenée» (die riickwirkende Impe- 
danz) am Kehlkopf beim Gesang, unter deren Einwirkung sich die Bildung von Vokalen 
gemeinsam mit der Tonhéhe befindet. 

Der zweite Teil bringt in sechs Kapiteln eine ausfiihrliche und durchgearbeitete 
physiologische Analyse aller méglichen Arten der Vokaltechnik. In der Konzeption 
Hussons ist die Vokaltechnik in erster Linie durch die neuro-motorischen Bedingungen, 
ferner durch die akustischen Modifikationen, durch verschiedenartige Ausnutzung der 
Schutzmechanismen (durch die Deckung offener Laute und die riickwirkende Impedanz 
des supraglottischen Raumes auf den Larynx), durch verschiedene Abstufung der inne- 
ren Empfindungen und schlieBlich durch ein differenziertes kérperliches Vokalschema 
als dem Regulator der Gesangsleistung des Sangers charakterisiert. 

Einen wichtigen Faktor bildet die Art, wie das Subjekt den supraglottischen Raum 
ausnutzen kann; nach diesem Kriterium kann die Vokaltechnik in drei Arten eingeteilt 
werden: 1, die Technik mit einer maBigen Impedanz (gewohnlich ungeschulte Stimmen), 
2. die Technik mit einer starken Impedanz (machtige Theaterstimmen) und 3. die mit 
einer geringeren oder gr6Beren Nasalierung verbundene Technik (bis zu den Grenzen 
eines pathologischen Fungierens). 

Eine auBerordentliche Aufmerksamkeit wird in der Schrift dem Gesang von mach- 
tiger Leistungsfahigkeit (dem Theatergesang) gewidmet. Die an die Bihnensanger ge- 
stellten Anforderungen sind hier unter gleichzeitiger Anfiihrung der geeigneten Technik 
in dem durch die anatomisch-physiologischen und neuro-endokrinen Verhiltnisse des 
Objektes gegebenen AusmaBe ausfithrlich analysiert. Dieses Kapitel sollte die Aufmerk- 
samkeit aller derjenigen finden, welche ihre Stimme bei Offentlichen, namentlich 
kinstlerischen Darbietungen benutzen, und nach der Meinung Aussons auch aller, die 
Opfer einer unrichtigen Gesangserzichung behandelnden Phoniater. 

Der dritte Teil der Schrift Hussons bildet einen wertvollen Behelf fiir die Gesangs- 
padagogen, indem er eine mit physiologischer Auswertung verbundene Beschreibung 
aller wichtigsten, bis heute bekannten gesangserzicherischen Methoden liefert. Mit 
Ricksicht auf ihre groBe Menge teilt sie der Autor in fiinf Gruppen ein. In die erste 
reiht er die Methoden der direkten Beeinflussung der Phonationsmuskulatur (appoggio, 
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Armins «Stauprinzip» usw.) ein, welche sich durch die Einstellung auf die, sei es nun 
inspiratorische oder expiratorische Atmungsart, Hebung oder Senkung der Lage des 
Kehlkopfs, die Gestaltung des Mundraumes und die Artikulationsbewegungen reali- 
sieren. Zu der zweiten Gruppe zahlt Husson jene Methoden, deren Wesen in der direkten 
Einwirkung auf das vokalische Timbre besteht; hier fiihrt er an erster Stelle die aus- 
gezeichnete Methode Labriets mit der sogenannten «Vokalkompensation» an. In der 
dritten Gruppe befinden sich Methoden, welche die klar zum BewuBtsein kommenden 
und gut lokalisierbaren subjektiven Empfindungen («sensibilités internes») ausnutzen; 
die vierte enthalt eine Ubersicht der Methoden, die auf die Willensexpressivitat des 
Timbres zu dem Zwecke eingestellt sind, durch die Regulierung der Spannung im Kehl- 
kopf und die Gestaltung des supraglottischen Raumes eine geeignete Modifikation des 
Timbres hervorzurufen. Und schlieBlich die letzte, fiinfte Gruppe behandelt einen bis- 
her padagogisch nicht ausgenutzten Mechanismus, der sich der Willenstatigkeit des 
Subjekts entzieht; es handelt sich um die Riickwirkung, die hervorgerufen wird durch 
auditive Anregungen des Subjekts beim Singen (in neuester Zeit durch die Versuche von 
Tomatis 1954 erwiesen). Damit schlieBt die Schrift Hussons. 

Im ganzen kann gesagt werden, daB das Buch Hussons einen groBen Beitrag fiir die 
wissenschaftliche Forschung sowohl tiber die physiologische Grundlage als auch den 
kiinstlerischen Aufbau der Gesangskunst bedeutet. Gestiitzt auf verlaBlich durchge- 
fihrte Experimentalmethoden, bringt es in gedrangter Form die Ergebnisse unermiid- 
licher und durchwegs ganz origineller Arbeiten sowohl des Autors selbst als auch einer 
zahlreichen Gruppe franzésischer Forscher. Es wird an den Lehrern der Gesangskunst 
sowie an den Sangern selbst liegen, ob sie es zuwege bringen, aus dem Buch die sowohl 
fiir die Padagogik des kiinstlerischen Gesangs als auch fiir die Gesangsleistung selbst 
nétigen Erkenntnisse abzuleiten. B. Hala, Prag 


Hussons Abhandlung stiitzt sich auf eine Reihe von Experimenten, welche mit Hilfe 
einer modernen elektrotechnischen und elektronischen Apparatur, wie z.B. der Ein- 
richtungen zum Studium des TYomatis-Phanomens, des Glottographs von Fabre usw. 
durchgefiihrt werden. Die Funktion der in Frage kommenden Organe wird sowohl vom 
physiologischen Gesichtspunkt auf der einen Seite als auch vom Gesichtspunkt der 
physikalischen Akustik auf der anderen Seite beschrieben, und zwar mit Hilfe der mo- 
dernsten Begriffe, wie zum Beispiel der Applikation der akustischen Impedanz. Daraus 
ist ersichtlich, daB der Autor auch auf dem Gebiet der physikalischen Akustik auf der 
Hohe steht und daB er ihre neuesten Erkenntnisse sehr gut beherrscht. 


J.B. Slavik, Prag 


W. R. Lee: An English Intonation Reader. Macmillan & Co., London 1960. 1235., geb., 
8s. 6d. 


Nach langjahriger Unterbrechung — H. Palmers Biicher wurden erstmals 1922, 
Armstrong und Wards Handbook 1926 ver6ffentlicht — sind in letzter Zeit eine ganze An- 
zahl Lehrbiicher der englischen Intonation erschienen. Die einen verlegen das Schwer- 
gewicht auf die systematische Einiibung der verschiedenen tone-patterns: W. St. Allen: 
Living English Speech (1954); R. Kingdon: The Groundwork of English Intonation 
(1958); M4. Schubiger: English Intonation (1958). Andere sind vor allem Readers, d. h. 
sie enthalten zusammenhangende Lesestiicke mit Intonationszeichen: P. A. D. Mac- 
Carthy: English Conversation Reader (1956); R. Kingdon: English Intonation Practice 
(1958). Auch der Anteil linguistischer, d. h. nicht direkt der Spracheiniibung dienender 
Betrachtung ist von Fall zu Fall verschieden. Wahrend z. B. Allen ein reines Ubungsbuch 
vorlegt, unterzieht Kingdon die englische Intonation einer weitausholenden Betrachtung. 

Wie schon aus dem Titel hervorgeht, verfolgt das hier angezeigte Werk in erster 
Linie praktische Ziele. In einem ersten, «Reading the Tone-Marks» betitelten Abschnitt 
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nde in die Benutzung des Buches eingefiihrt. Anhand eines kurzen sowohl 


wird der Lerne =. 
t eingesetzten Tonzeichen ver- 


mit Interlinearaufzeichnung als auch mit in den Tex : 
sehenen Gesprachs lernt er diese Zeichen richtig zu interpretieren. Die Aufzeichnung 
ist einfach und leicht verstandlich. Die Vereinfachung gegeniiber Kingdon besteht vor 
allem darin, daB bei den Gleitlauten sowohl die Unterscheidung hoch/tief als auch die 
zwischen emphatisch und unemphatisch wegfallt. Lee verwendet nur vier Gleitlaut- 
zeichen: \, /, v und a1, Ein paar weitere Zeichen: 4, ~ und _ weisen auf die static tones 
hin, ferner ein hochgestelltes / auf einen Gleitlaut in schwachbetonter Endsilbe. - 
Anhand von langen Reihen gleich zu intonierender Worter und Satzchen muB sich der 
Schiiler jetzt die Gleitlaute aneignen. Die static tones werden — wie bei XK ingdon - gesondert 
eingetibt. An einer Stelle (S. 20), so will es der Rezensentin scheinen, wird hier dem 
Lernenden durch die graphische Darstellung eine unnétige Schwierigkeit zugemutet. 
vMother, vwhich one, vjourney , vrecognized usw. haben hdchst selten die Intonation v oder v, 
sondern meist die viel leichter zu erlernende Form \, oder \./?. 

Nach Absolvierung dieses «Vorkurses» kann sich der blo8 auf die Spracherlernung 
eingestellte Auslander gleich den Lesestiicken zuwenden. Diese bilden eine «A Week-End 
in the Country» betitelte Folge von zehn Gesprachen®. Wer sich dariiber hinaus fir die 
Leistung der Intonation als sprachliches Ausdrucks- und Verstandigungsmittel inter- 
essiert, findet im Kapitel «Zntonation at Work» mannigfache Belehrung. Lee unterscheidet 
zwischen subjektiver und objektiver Funktion der Intonation. Erstere besteht darin, 
daB die Stimmfiihrung, zusammen mit anderen Ausdrucksmitteln, wie Gesichtsausdruck, 
Gebarden und Lautstarke, die Haltung des Sprechers zum Ausdruck bringt. Sie wird 
vorerst nur kurz gestreift, erhellt dann aber deutlich aus den Kapiteln, in denen die 
Intonation der verschiedenen Satzarten besprochen wird. Am ausfiihrlichsten wird der 
Fragesatz behandelt (S. 33-49), vor allem die tail-question, deren tone-patterns und die 
damit verkniipften Bedeutungsnuancen sich leicht darstellen lassen. Auch bei Allen 
nimmt the question-tag einen breiten Raum ein. Auf die Aussage-, Befehls- und Aus- 
rufsatze entfallen dagegen nur insgesamt vier Seiten. Lee hatte dem Lernenden auch 
hier etwas mehr unter die Arme greifen diirfen‘. 

Die objektive Leistung der Intonation ist nach Lee eine zweifache. I. Die in einem 
gewissen Zusammenhang wichtigen Worter werden durch die Stimmfiihrung hervor- 
gehoben, z. B. \ John is writing to his father; John is \writing... usw. Dem Deutschen 
begegnet hier vieles, was ihm aus der Muttersprache vertraut ist. II. Aus der Stimm- 
fiihrung erhellt oft das Verhaltnis der Satzteile zueinander und folglich die Bedeutung 
des Satzes. Nicht selten hat der gleiche Satz, je nach Intonation, zwei ganz verschiedene 
Bedeutungen. Hier macht Lee den Studierenden auf Unterscheidungen aufmerksam, 
die er schon wiederholt besprochen hat® und die auch schon von anderen behandelt 
worden sind. Es handelt sich um folgende Falle: 1. [didn’t visit thes (—) doctor because I 
was (vill. 2. Thes(1)men who were slazy tstayed in \ bed. 3. They'd bes(\ ) miserable if they 
were (1) rich. 4. She slooked(\ ) up, (1) happily. 5. She doesn’t speak tov (v ) anybody. 


Man fragt sich, warum die am SchluB steigende Entsprechung von A, namlicha/, 
nicht einbezogen wird; «/ bietet kaum gréBere Schwierigkeiten als A, zumal wenn sich 
die Tonbewegung iiber mehrere Silben erstreckt. 

* Siehe Kingdon: Groundwork, S. 11. 

5 Zu den Lesestiicken sowie zu einem Teil des Einfiihrungskurses ist ein Satz von 
sechs Linguaphonplatten erhaltlich. An den Gesprachen sind acht Personen, vier Damen 
und vier Herren, beteiligt. 

* Die sehr haufigen, also auch in den Lesestiicken immer wieder vorkommenden 
Aussagesatze mit am Schlu8 fallend-steigender Intonation werden z. B. gar nicht 
berithrt. Nur bei den Antworten auf question-tags wird u. a. die Intonation \No, itvisn’t 
angefiihrt. 


5 Maitre phonétique, 1953, 1955, 1956. Lingua V, 1956. 
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Bei allem Interesse, welches Lees theoretische Ausfithrungen zu wecken vermégen, 
ist dieser Teil des Buches doch wenig befriedigend. Er ist nicht klar genug aufgebaut. 
Zusammengehériges wird oft getrennt, Verschiedenartiges vermengt. Hier ein paar 
Beispiele: Der oben unter (2) angefiihrte Unterschied zwischen einschrankenden und 
erweiternden Relativsatzen wird richtig als objektive Leistung der Intonation gewertet. 
Doch die entsprechende Unterscheidung bei der Apposition (4 (\ ) Smith the, bank manager) 
steht im Kapitel, in dem die Intonation der Satzarten zur Sprache kommt. Unter dem 
Titel «Co-ordination» erscheinen nicht nur Satze wie: +Nobodycame and 4 nothing, happen- 
ed, sondern erstaunlicherweise auch We've been, waiting for you at the station. Unter «Res- 
ervation» finden wir neben You can\see it ovccasionally den Fragesatz Where, were you 
on/Friday ?, den man nicht «a question... ending in a fall qualified by an addition» (69) 
nennen kann. — Solche Begriffsverwirrungen sind um so bedauerlicher, als das Buch als 
Ganzes gegeniiber anderen Intonation Readers einen groBen Vorteil hat: Die theoretische 
Betrachtung und die Lesestiicke sind aufeinander abgestimmt. Geschickt sind die Ver- 
wendungsmoéglichkeiten der tone patterns in den verschiedenen Satzarten und auch die 
gelegentlich damit verbundenen Bedeutungsunterschiede in den Text eingeflochten. 
Und trotzdem wirken die Gesprache nicht gekiinstelt. 

Eine Einzelbemerkung: Seite 31, Zeile 2, sollte es heiBen: ‘‘A stress difference helps 
to distinguish in'sult (verb) from ‘insult (noun)... No matter how we say these words, the 
distinction is clear if we keep to the fonetic stress-pattern (nicht bloB stress pattern).” 
ErwiesenermaBen kommt dem dynamischen Akzent nur im Zusammenhang mit der 


entsprechenden Intonation differenzierende Bedeutung zu. — Druckfehler: S. 110 
(Mitte) : pesimizm, nicht pezimizm; S. 113 (Zeile 6): a\Jo:, nicht \afo:; S. 118 (fiinfte und 
vierte Zeile von unten): zwei SchluBpunkte fehlen. Maria Schubiger, Basel 


Milan Romportl: Zvukova stranka souvislé feci vy narecich na Tésinsku («Die klang- 
liche Seite der zusammenhangenden Rede in den Dialekten des Teschener Gebiets»). 
Publikace Slezského ustavu CSAV 23. Krajské nakladatelstvi v Ostravé, Ostrava 
(Ostrau) 1958. 125 S. und 2 Karten. 


Im Jahre 1940 wurde eine nachgelassene Studie von Stanislav Petrik tiber die Satz- 
intonation in den miahrisch-schlesischen Mundarten ver6ffentlicht1, die nach dem 
Willen des Verfassers durch Schilderungen verschiedener Eigentiimlichkeiten und 
auffalliger Erscheinungen sowie durch Hinweise auf die Vielfaltigkeit der Problematik 
einen Ausgangspunkt fiir weitere Forschungen bilden sollte. Es ist Romportls Verdienst, 
die Anregungen Petr*iks aufgegriffen und eine der Dialektgruppen, namlich die schle- 
sisch-polnischen Mundarten in dem tschechoslowakischen Teil des Teschener Gebiets 
(Schlesien), einer systematischen satzphonetischen Durchforschung unterzogen zu haben. 
Nach zwei vorbereitenden Abhandlungen, die neben einer Ubersicht der Akzent- 
verhaltnisse und Anmerkungen zur phonetischen Realisierung der phonologisch 
irrelevanten Vokalquantitat vor allem eine Darstellung der satzmelodischen Gegeben- 
heiten in verschiedenen Gebieten der erwahnten Dialektgruppe anstrebten?, legt der 


1 St. Pet*tk: Zur Satzintonation der mahrisch-schlesischen Mundarten. Slavia 17: 
481-548 (1939/40). — Es ist darauf hinzuweisen, daB der Terminus «Satzintonation» 
bei Pet*ik die Gesamtheit der Akzent-, Tonverlaufs- und Dauerverhialtnisse auf der 
Satzebene umfaBt. 

2 M. Romportl: Pfizvuk, kvantita a melodie v néfeé¢i na Jablunkovsku («Akzent, 
Quantitat und Melodie im Dialekt des Jablunkauer Gebiets»). Slezsky sbornik (Acta 
silesiaca) 52: Beilage des Heftes 1/2, 48 S. (1954). — Pfizvuk a melodie nafeti na Tésinsku 
(«Akzent und Melodie der Dialekte des Teschener Gebiets»). Adolfu Kellnerovi sbornik 
jazykovédnych studii, pp. 53-78 (Slezsky studijni ustav, Opava 1954). 


Prager Dozent mit der oben angefiihrten Arbeit nunmehr die Summa seiner Unter- 
suchungen vor. , : 

Die vorliegende Arbeit stellt in mehrfacher Hinsicht einen willkommenen Beitrag 
dar. Im Bereich der slavischen Sprachen und ihrer Mundarten (durchaus aber nicht in 
diesem Bereich allein) besteht an satzphonetischen Untersuchungen noch ein spiirbarer 
Mangel. Zudem befindet sich die phonetische Erforschung der zusammenhangenden 
Rede (die Satzphonetik) selbst noch in den Anfangsstadien ihrer Entwicklung, und in 
dieser Phase ist jede Arbeit fiir den weiteren Fortschritt wesentlich, sei es dadurch, daB 
sich vielleicht manche Prolegomena zu einer spateren einheitlichen Methodik finden 
lassen, sei es durch die generellen Aspekte der Resultate. Auch wenn man sich weder 
speziell mit den sogenannten tschechisch-polnischen Ubergangsmundarten noch all- 
gemein mit dem Westslavischen oder vielleicht mit dem Slavischen tiberhaupt befaBt, 
wird man durch die Arbeit Romportls zu manchen Uberlegungen und Gedankengangen 
angeregt werden. 

Die Struktur der Arbeit ist schnell skizziert. Nach einem einleitenden Kapitel, in 
dem der Verfasser den Gegenstand seiner Untersuchungen und seine Arbeitsweise er- 
lautert (S. 5-13), folgt je ein Kapitel titber Akzent (S. 14-50), Quantitat (S. 51-63), 
Satzmelodie (S. 63-79) sowie tiber Sprechtempo und Redepausen (S. 80-86). In einem 
weiteren zusammenfassenden Abschnitt versucht der Autor sodann eine Synthese zu 
geben (S. 87-92). Dialekttexte aus dem untersuchten Gebiet (die auBerst sorgfaltig 
durchgefiihrte phonetische Transkription verdient hervorgehoben zu werden), ein 
russisches und ein deutsches Résumé sowie ein gemischtes Sach- und Namenregister 
schlieBen die Arbeit ab. 

Gema8 der von der Prager phonetischen Schule angewandten Terminologie® 
nennt Romportl als Gegenstand seiner Untersuchungen an den schlesisch-polnischen 
Mundarten die Modulationen der zusammenhdngenden Rede oder Sprechmodulationen und ver- 
steht darunter solche lautlichen Erscheinungen, die den hdheren Einheiten des laut- 
lichen Baues der Sprache, dem Takt (d. h. Akzenttakt) und dem Satzabschnitt bzw. 
dem Satz zugeordnet sind, mit diesen Einheiten eng zusammenhangen und sie bestim- 
men und abgrenzen oder zumindest abzugrenzen und zu bestimmen helfen (S. 5) 4. 
Dieser Definition mégen gleich einige Bemerkungen folgen. 

Wenn der Verfasser Silbe, Akzenttakt und Satzabschnitt bzw. Satz «hdhere Ein- 
heiten des lautlichen Baues» nennt und an anderer Stelle die Laute als Grundelemente 
des lautlichen Baues der Sprache bezeichnet (S. 6), so erinnert dies an das altere Modell 
der Phonetik, in dem die Laute als Elemente der Rede begriffen und alle héheren 
Einheiten, wie Silbe, Akzenttakt oder Akzentgruppe und Ausspruch bzw. Satz, aus 
ihnen abgeleitet wurden. Gerade die Satzphonetik aber sollte sich ganzheitlich orien- 
tieren! Ebenso wie die Linguistik dazu tibergegangen ist, die Sprache nicht mehr von 
den kleinsten Elementen her aufzubauen, sondern den Satz als Sinnganzes zum Aus- 
gangspunkt und zur Grundlage zu nehmen, sollte auch die Phonetik, ganz besonders 
natirlich bei Untersuchungen der zusammenhangenden Rede, bewuBt vom Satz (hier 
im weitesten Sinne des Wortes gefaBt) als der eigentlichen Redeeinheit ausgehen. Denn 
alles Sprechen vollzieht sich — um eine Binsenwahrheit zu sagen — in Satzen. 

Wenn die «Sprechmodulationen» als lautliche Erscheinungen bezeichnet werden, 
die den héheren Einheiten des lautlichen Baues der Sprache zugeordnet sind, so trifft 
das zweifellos zu. Doch sollte man dariiber nicht vergessen, warum dem so ist. Die mo- 
derne Sprachpsychologie lehrt, daB die mit den Wortern als Zeichen verbundenen Be- 
deutungen im Satz in einer bestimmten Weise kombiniert, in einen Sinnzusammenhang 


8 Vgl. B. Héla: Uvod do fonetiky («Einfiihrung in die Phonetik») (Melantrich, 
Prag 1948). 


“Im deutschen Résumé (S. 110) spricht Romportl von «hdheren Einheiten des 
phonetischen Systems der Sprache». (Kursivdruck im Zitat von mir — H.-W. W.) 
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eingebaut und zu einer Ganzheitlichkeit integriert werden’. Dieser ZusammenschluB 
zu einer sinnvollen Redeeinheit findet seinen lautlichen Ausdruck in den « Sprech- 
modulationen». Mit dieser Feststellung nahern wir uns dem funktionellen Aspekt, der 
beim Verfasser in der Formulierung anklingt, daB die den héheren Einheiten des laut- 
lichen Baues der Sprache zugeordneten lautlichen Erscheinungen mit diesen Einheiten 
eng zusammenhangen und sie bestimmen und abgrenzen oder zumindest abzugrenzen 
und zu bestimmen helfen (s. 0.). Damit kénnen wir uns jedoch nicht zufriedengeben. 
Die «Sprechmodulationen» dienen der lautlichen Zusammenfassung des Satzkérpers 
(d. h. der einzelnen Worter als Bedeutungstrager) zu einer gewissen geschlossenen 
Einheit (zur sinnvollen Redeeinheit). Als Grundfunktion der «Sprechmodulationen» ist 
zweifellos die Umwandlung der Wérter als appelativer Einheiten in die kommunikative Redeeinheit 
«Satz» anzusehen®. Diese Funktion kénnte auch satzkonstituierende Funktion genannt 
werden. Nun wird die Redeeinheit «Satz» mit Hilfe der «Sprechmodulationen» nicht 
nur konstituiert, sondern die Redeeinheiten werden im Zusammenhang der Rede von- 
einander abgegrenzt, und auBerdem werden verschiedene Arten der Redeeinheiten von- 
einander unterschieden. Innerhalb der Grundfunktion waren also zwei Teilfunktionen 
zu unterscheiden: eine delimitative und eine differenzierende. Diese Teilfunktionen diirfte 
der Verfasser im Sinn gehabt haben, als er von «Abgrenzung» und «Bestimmung» 
sprach. 

Hinweise auf die Umwandlung von Wortern in sinnvolle und verstandliche Rede- 
einheiten als die eigentliche Funktion der satzphonetischen Faktoren sind bereits bei dem 
in manchen seiner Gedankengange sehr modern anmutenden Eduard Sievers zu finden. 
Es sei ein Zitat angefiihrt: «Unter einem Satz wollen wir hier eine jede selbstandige 
gesprochene AuBerung verstehen, d. h. eine jede in sich geschlossene Lautmasse, die in 
einem bestimmten Zusammenhang, sei es der Rede, sei es der Situation tiberhaupt, 
einen bestimmten Sinn (Gedanken oder Stimmung) zum Ausdruck bringen soll und in 
diesem bestimmten Sinn von dem HoOrer verstanden wird’.» Hervorzuheben ist die 
Formulierung «in sich geschlossene Lautmasse». In § 613 der «Grundziige» (5. Aufl.) 
wird diese Formulierung durch die Feststellung naher erlautert, daB ein verstandlicher, 
eindeutiger Satz erst dadurch entstehe, daB die Worter in einer ganz bestimmten Weise 
zu einer phonetischen Einheit zusammengeschlossen werden. In § 617 werden sodann 
die Abstufung nach Starke, Tonhéhe und Dauer als Variationsmittel genannt, die fiir 
die phonetische Charakteristik des Satzes (fiir die Zusammenfassung der Worter zu 
einer «geschlossenen Lautmasse») in Betracht kommen. Erst der ZusammenschluB zu 
einer phonetischen Einheit mittels Abstufungen nach Starke, Dauer und Tonhéhe — 
so ungefahr kénnte man die Sieversschen Ausfiihrungen kurz zusammenfassen — ver- 


5 Vel. z. B. Fr. Kainz: Psychologie der Sprache; Bd. 1: Grundlagen einer allge- 
meinen Sprachpsychologie (F. Enke, Stuttgart 1941). 

8 In dem Aufsatz «Sentence intonation from a functional point of view», Word J6: 
34-54 (1960), sagt F. DaneS: ‘“The fundamental function of intonation is to transform 
words, as appelative units, into communicative units, i.e. into utterances. Each word or 
succession of words automatically becomes an utterance when it is pronounced in a 
certain intonational form” (op. cit. S. 43-44). — Dane& vereinfacht die Verhaltnisse 
insofern, als er allein der Intonation die Rolle des transformierenden Faktors zuerkennt. 
An der Konstituierung der kommunikativen Redeeinheit «Satz» sind jedoch alle satz- 
phonetischen Elemente (auBer dem melodischen Element noch das dynamische und die 
quantitativen Elemente) maBgeblich beteiligt. Wenn auch dem melodischen Element 
in der Hierarchie der erste Platz gebithren diirfte, erst dem Zusammenwirken der genannten 
Elemente kommt die Funktion zu. (Mit der Arbeit von Danes werden wir uns an anderer 
Stelle noch ausfiihrlich beschaftigen.) 

7 Vgl. E. Sievers: Grundziige der Phonetik; 5. Aufl. (Breitkopf & Hartel, Leipzig 


1901). 
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wandelt ein Wort oder eine Reihe von Wortern in einen verstandlichen, eindeutigen 
Satz mit bestimmtem Inhalt. Die zentrale Bedeutung der « Sprechmodulationen» fir 
die Konstituierung der Redeeinheit «Satz» war von Sievers im wesentlichen richtig 


erkannt worden. 

Wenden wir uns nach diesem Exkurs wieder der vorliegenden Arbeit zu! Die 
Materialgrundlage der Untersuchungen diirfte als beispielhaft zu bezeichnen sein. Fiir 
die Arbeit wurde Material von insgesamt 104 Informatoren mannlichen und weiblichen 
Ceschlechts aus 61 Ortschaften des untersuchten Gebiets ausgewertet. (Vgl. die Karten- 
skizze S. 8 und das Verzeichnis der Sprecher S. 10-11.) Das Material wurde vom Ver- 
fasser auf drei Reisen in die Gebiete der untersuchten Dialektgruppe (im Juni 1952, 
im September 1953 und im September 1955) gesammelt. Bei der Gelandearbeit konnte 
ein Magnetophongerat eingesetzt werden. Die Vorteile einer solchen «Speicherung» 
des Materials sind hinreichend bekannt. Die Tonbandaufnahmen kénnen beliebig oft 
abgehért und die auf dem Wege der auditiven Analyse gewonnenen Belege wiederholt 
auf ihre Genauigkeit hin kontrolliert werden. Zusatzlich erdffnet sich die Moglichkeit 
instrumenteller Analysen, die vom Verfasser auch genutzt wurde. 


Mit 36 Seiten bildet die Darstellung der Akzentverhdltnisse in den untersuchten 
Mundarten den umfangreichsten Teil der Arbeit. Hier ist besonders die sorgfaltige 
statistische Arbeitsweise des Verfassers hervorzuheben, die nicht wenig zur Klarung 
verschiedener dringender Probleme beigetragen hat. Petrik korrigierte seinerzeit die 
herrschende Auffassung vom Vorletztsilbenakzent der schlesisch-polnischen Mundarten 
des Teschener Gebiets dahingehend, daB in drei- und mehrsilbigen Wortern bzw. 
Akzenteinheiten die Panultimabetonung (der «polnische» Typus) und die Anfangs- 
silbenbetonung (der «tschechische» Typus) einander ablésten. Da er in dem von ihm 
konstatierten starken Schwanken der Akzentuierung die Tendenz erkannt haben wollte, 
daB nichthervorgehobene Worter gr6éBtenteils eine schwache Anfangssilbenbetonung 
tragen, wahrend wenigstens gering hervorgehobene Worter die Vorletztsilbenbetonung 
und stark hervorgehobene wieder eine (diesmal jedoch starke) Anfangssilbenbetonung 
aufweisen, glaubte er von bestimmten Funktionen der verschiedenen Akzentuierungs- 
weisen sprechen zu kénnen. Romportl muBte sich also gewissermaBen zwangslaufig mit 
der Frage nach dem Verhiltnis von Vorletztsilben- und Anfangssilbenbetonung und 
nach ihren méglichen sprachlichen Funktionen befassen. Es ergab sich, daB Petrik aus 
einem vielfach stark beschrankten Material etwas weittragende Schliisse gezogen hatte, 
die sich anhand der Akzentstatistiken als unhaltbar erwiesen. Die Panultimabetonung 
wird vom Verfasser nach wie vor als Grundtypus der Akzentuierung der untersuchten 
Mundarten angesehen Die mit starkerer oder schwacherer Frequenz auftretende An- 
fangssilbenbetonung stellt den Ausfiihrungen Romportls zufolge eine Akzentverschiebung 
dar, deren Ursache in den dynamischen Verhiltnissen des Satzes gesucht werden miiBte. 
Vor allem sind natiirlich Akzentverschiebungen, die im Zusammenhang mit einer Ver- 
starkung des Akzents (mit dem sogenannten Hervorhebungsakzent) auftreten, als satz- 
dynamische Erscheinung zu bewerten. Diese Kategorie, die allgemein in Sprachen bzw. 
Mundarten zu finden ist, deren Akzent keine phonologisch relevante (distinktive) 
Funktion zukommt, teilt Verf. von den anderen ab. Aber auch die interessanteren 
Akzentverschiebungen bei normaler (nicht verstarkter) Akzentuierung beruhen 
Romportl zufolge mehr auf der Satzdynamik als auf der Dynamik des Wortes. 


Ferner konnte Verf. auf Grund seiner Akzentstatistiken nachweisen, daB8 Drei- 
silbler in einem weitaus starkeren MaBe zur Akzentverschiebung inklinieren, als es bei 
viersilbigen und langeren Wortern oder Akzenteinheiten der Fall ist. AuBerdem konnte 
liberzeugend dargelegt werden, daB der Anfangssilbenakzent im siidlichen Teil des 
untersuchten Gebiets eine weit hdhere Frequenz als in den nérdlicher gelegenen Teilen 
aufweist ; und auch hier sind wiederum Dreisilbler fiir die Akzentverschiebung am 
anfalligsten. (Uber die geographische Situation orientieren zwei Karten, die nach S. 40 
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bzw. 42 der Arbeit eingeheftet sind.) In dieser Hinsicht hat Romportl Vorziigliches 
geleistet. 

Im Hinblick auf das Vorhandensein der Anfangssilbenbetonung glaubt Verf. von 
einer Abschwachung der delimitativen Funktion des Panultimaakzents sprechen zu 
kénnen. Diese Abschwachung sei aber nur generell aufzufassen: das von Teilgebiet zu 
Teilgebiet des untersuchten Sprachraumes variierende Schwanken zwischen Panultima- 
und Anfangssilbenbetonung sei nicht etwa gleichbedeutend mit verschiedenen Stufen 
der Abschwachung. Diesen Ausfiihrungen vermégen wir nicht ganz beizustimmen. 
Wenn ein «delimitativer» Panultimaakzent Worte oder Akzenteinheiten dadurch von- 
einander abzugrenzen vermag, da er auf die Tatsache hinweist, daB das Ende des 
Wortes oder der Akzenteinheit nach einer weiteren, unbetonten Silbe folgt, dann grenzt 
der Anfangssilbenakzent ebenso gut dadurch ab, daB er auf der ersten Silbe eines 
Wortes bzw. einer Akzenteinheit ruht. Delimitiert wird also immer, wenn auch die Art 
der Abgrenzung verschieden ist. Man sollte infolgedessen wohl besser von einer unter- 
schiedlichen funktionellen Belastung beider Akzentuationstypen sprechen. Gehen wir 
aber einen Schritt weiter! Ist denn die Funktion des Akzents, besser gesagt: die primdre 
Funktion, in den untersuchten Mundarten tiberhaupt «delimitativ»? LaBt die Tatsache, 
daB der Akzent in der zusammenhangenden Rede aus dynamisch-rhythmischen Griin- 
den von der vorletzten auf die erste Silbe verschoben werden kann, ohne daB die andere 
Art der «Abgrenzung» zu irgendwelchen Stérungen in der Verstandigung fiihrt oder 
zumindest innerhalb eines sprachlichen Kollektivs auffallend wirkt, nicht eventuell auf 
eine andere Funktion, namlich die der dynamisch-rhythmischen Gliederung der Rede, 
schlieBen? Diese wie es uns scheint naheliegende Frage wurde vom Verf. nicht gestellt, 
obwohl doch gerade der Umstand, da8 Dreisilbler fiir die Akzentverschiebung viel an- 
falliger sind als Vier- und Fiinfsilbler, in denen dafiir mit groBer RegelmaBigkeit ein 
sogenannter Nebenakzent auf der ersten Silbe erscheint, noch besonders darauf hin- 
weisen diirfte. Auch hatte eine Stellungnahme zu den Arbeiten Galions® vielleicht man- 
ches zu einer Klaérung dieser Problematik beitragen konnen. 

Zur Frage des sogenannten «Satzakzents», der generell als eine Verstarkung der 
Akzentsilbe des sinnwichtigsten Wortes eines Satzes (des «psychologischen Pradikats» 
oder «Aussagekerns») aufgefaBt wird, konnte Verf. durch auditive Analyse mit Hilfe 
des Bandschnittverfahrens feststellen, daB normalerweise (wenn nicht bereits « Hervor- 
hebungsakzent» vorliegt) die als «satzakzentuiert» wahrgenommene Silbe nicht nur 
nicht starker, sondern sehr oft sogar schwacher als die anderen Akzentsilben des Satzes 
ist. Diese Situation entspricht durchaus den Verhiltnissen in der tschechischen Schrift- 
sprache®. Es scheint, daB der «Satzakzent» durch das Zusammentreffen mehrerer 
wichtiger Erscheinungen signalisiert wird. Als solche waren zu nennen: Stellung des 
«psychologischen Pradikats» am Satzende; Dehnung des Vokals in der Endsilbe des 
Satzes, d. h. in der Silbe, die unmittelbar auf die «satzakzentuierte» folgt; Verbindung 
der satzmelodischen Kadenz, d. h. des funktionell relevanten Abschnitts der melodischen 
Linie des Satzes, mit dem «psychologischen Pradikat». 

Im Hinblick auf die durchschnittliche Starke der Akzentuierung und auf das 
Starkeverhaltnis zwischen «akzentuierten» und «nichtakzentuierten» Silben werden 
die untersuchten Dialekte vom Verf. zwischen das Tschechische und das Russische ein- 
gestuft. 

Es ist sehr zu begriiBen, daB der traditionell «dynamisch» genannte Akzent vom 
Verf. als Komplexqualitat aufgefaBt wird. Obwobl sich Romportl nicht naher mit der 


8 H. Galton: On the supposed delimitative accent in West Slav. Archivum Lin- 
guisticum 7: 123-139 (1955). — Uber das Prinzip rhythmischer Alternation im Slavi- 
schen. Wiener slavist. Jahrb. 5: 37-58 (1956). 

9 4. Skaliékovd: K otazce vétného prizvuku v GeStiné («Zur Frage des Satzakzents 
im Tschechischen»). Universitas Carolina, Philologica I, 1: 55-66 (1956). 
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phonetischen Natur des Phanomens «dynamischer Akzent» befaBt (dieses Problem lag 
ja auBerhalb des Rahmens seiner Arbeit), weist er doch ausdriicklich darauf hin, daB er 
unter dem Begriff der Starke des Akzents nicht nur die physikalische Intensitat versteht, 
sondern immer einen ganzen Komplex klanglicher Erscheinungen (S. 19). 

Das Merkmal der vokalischen Quantitét wird in den schlesisch-polnischen Mund- 
arten des Teschener Gebiets, ahnlich wie im Polnischen und im Gegensatz zur tschechi- 
schen Schriftsprache und der Mehrheit der tschechischen Dialekte, nicht zu distinktiven 
Zwecken genutzt und ist infolgedessen phonologisch irrelevant. Um so eingehender ist 
natiirlich zu priifen, ob und in welchem MaBe Veranderungen der Vokaldauer auf der 
Satzebene funktionell verwendet werden. Dadurch, daB Dauerunterschiede nicht als 
Realisierung einer bestimmten, der Wortunterscheidung dienenden sprachlichen Norm 
auftreten, laBt die phonologische Struktur der untersuchten Mundart grundsatzlich die 
Méglichkeit einer anderen Verwendung offen. 

Verf. beschrankt sich nicht auf den funktionellen Aspekt, sondern gibt auch eine 
generelle Darstellung der Quantitatsverh4ltnisse Seine Ausftihrungen basieren auf der 
Ausmessung elektromagnetischer kymographischer Registrierungen, die von Teilen der 
Magnetophonaufnahmen gewonnen wurden. Wir erfahren zunachst, daB die spezifi- 
schen Dauerverhiltnisse der Vokalkategorien in den untersuchten Mundarten sich nicht 
von denjenigen der tschechischen Schriftsprache unterscheiden. Ein geschlossener Vokal 
ist unter im iibrigen gleichen Bedingungen kiirzer als ein offener. Die Quantitat steht 
ferner in einem direkten Verhaltnis zum Akzent. Die Vokale akzentuierter Silben weisen 
eine relativ langere Dauer als die der nichtakzentuierten Silben auf. Besonders deutlich 
ist diese Erscheinung bei einer Akzentverstéarkung («Hervorhebungsakzent») zu 
beobachten. Die relativ geringste Dauer fallt gew6hnlich dem Vokal der unmittelbar 
auf die Hauptakzentsilbe eines Wortes (bzw. einer Akzenteinheit) folgenden nicht- 
akzentuierten Silbe zu. Jeder Vokal ist auBerdem um so kiirzer, je langer die Einheit ist, 
der er angehért. Obwohl es sich bei den genannten Erscheinungen um Tendenzen all- 
gemeinsprachlichen Charakters handelt, so daB experimentelle Untersuchungen bei 
gleichen sprachlichen Verhaltnissen zu relativ gleichen Resultaten fiithren!®, sind 
Romportls Darstellungen als Erganzung der bisherigen Literatur willkommen, liefern sie 
doch Quellenmaterial aus einem in dieser Hinsicht noch nicht naher untersuchten 
Sprachgebiet. 

Wir kommen nun zu den (von der Satzebene aus gesehen) funktionellen Aspekten 
der Quantitatserscheinungen. (1) Der Vokal in der Endsilbe eines Satzes oder Satz- 
abschnitts erfahrt eine deutliche Langung. In diesen Fallen ist die Modifizierung der 
Vokalquantitat an der Abgrenzung des Satzes als Redeeinheit beteiligt und ibt im 
Zusammenhang mit anderen Faktoren (Satzmelodie und Redepause) eine delimitative 
Funktion aus. Das ist z. B. (um Beispiele aus dem Westslavischen zu nennen) auch im 
Polnischen™ und Tschechischen der Fall. (2) Eine starke Dehnung der Akzentsilben 
(vor allem der Akzentsilbe des sinnwichtigsten Wortes) pflegt auch bei emphatischer 
oder emotioneller Aussprache zu erscheinen. Leider werden diese Falle vom Verf. zu- 
sammen mit der Langung infolge einer Akzentverstarkung bei einfacher (d. h. nicht- 
emotioneller Hervorhebung) behandelt. (DaB sogenannte «emotionelle» Dehnungen 
nicht von einer gleichzeitigen Akzentverstarkung begleitet sein miissen, beweist eins der 
vom Verf. angefihrten Beispiele.) Die im Vergleich mit den anderen Abschnitten des 
Quantitatskapitels (besonders mit den Darstellungen der allgemeinen Tendenzen) sehr 

10 Vgl. B. Malmberg: Die Quantitat als phonetisch-phonologischer Begriff (C. W. K. 
Gleerup, Lund 1944). Besonders S. 6-13. 

Mee mi Zur Dehnung der « satzauslautenden » Silben im Polnischen vgl. 7. Rozwadowski: 
wymowy (fonetyki) polskiej («AbriB der Aussprache [Phonetik] des Polnischen»). 

Mat. i Prace Kom. Jezyk. J: 95 ff. (Krakau 1904) 
122 Vel. FuBnote 9. 
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kurz gehaltenen Ausfithrungen sind zudem mit nur 5 Beispielen aus beiden behandelten 
Bereichen wirklich sparlich illustriert. Wir finden keinerlei Hinweis darauf, ob die 
«emotionellen» Dehnungen nicht im expressiven Bereich der Satzebene eine wesentliche 
Rolle spielen, ob sie nicht ein satzphonetisches Element darstellen, das zwar keinerlei 
EinfluB auf die Bedeutung des Satzes, wohl aber auf die Bedeutsamkeit hat. (In den west- 
lachischen Mundarten des Tschechischen, die ebenso wie die vom Verf. untersuchten 
schlesisch-polnischen Mundarten des Teschener Gebiets keine phonologisch relevante 
Quantitat kennen und eine Panultimabetonung aufweisen, besteht z. B. folgende Még- 
lichkeit: Wird in einer Aussage durch eine spezielle melodische Form Erstaunen an- 
gedeutet, so kann durch «emotionelle» Quantitat zusatzlich ein groBes MaB des Er- 
staunens signalisiert werden. So kann eine relativ feststehende Satzbedeutung in ihrer 
Bedeutsamkeit variiert werden!*.) Emphatische Veranderungen der Vokalquantitat 
diirften nicht grundsatzlich als bloBe Begleiterscheinungen einer emotionellen Aus- 
sprache gewertet werden. In Romportls Abschnitt «Dehnung infolge Hervorhebungs- 
akzent und Emphase» (S. 56-58) ist der funktionelle Aspekt sichtlich zu kurz gekommen. 

DaB der funktionelle Aspekt nur teilweise beriicksichtigt wurde, zeigt auch die 
Gesamtanlage des Kapitels «Quantitat», das folgende Gliederung aufweist14: A. «Me- 
thode der Untersuchung»; B. «Quantitat in Wort und Satz», J. «Verhaltnis der Quan- 
titat verschiedener Vokale», 2. «Akzentuierte und nichtakzentuierte Vokale», 3. « Deh- 
nung infolge Hervorhebungsakzent und Emphase», 4. «Quantitat der Vokale in den 
Endsilben von Satzen und Satzabschnitten», 5. «EinfluB der Lange des Taktes auf die 
Quantitat der Vokale»; C. «Zusammenfassung». In Punkt J, 2 und 5 des Abschnitts B 
werden allgemeinsprachliche Erscheinungen behandelt, Punkt 4 befaBt sich mit 
funktionell relevanten Gegebenheiten, in Punkt 3 wird beides vermischt. Eine vom 
funktionellen Standpunkt ausgehende Gliederung diirfte sich als vorteilhafter erwiesen 
haben. Die geringe Beriicksichtigung des funktionellen Aspekts ist um so bedauerlicher, 
als Romportl selbst an anderer Stelle die Forderung erhoben hat: «Es wird also nétig 
sein, vorerst eine ausfiihrliche und prazise Analyse der satzphonetischen Elemente und 
Mittel..., u. zw. wie vom phonetischen, so auch vom linguistischen (phonologischen) 
Standpunkt durchzufihren?.» 

Das Material zur Satzmelodik der untersuchten Mundarten wurde vom Verf. 
bereits in den vorbereitenden Studien (vgl. FuBnote 2) weitgehend beschrieben und 
kommentiert. So gibt Romportl in dem Kapitel «Melodie» der vorliegenden Arbeit 
(S. 63-79) eine Synthese und versucht das satzmelodische System zu beschreiben. 

Der Tonverlauf (die Melodie) eines Satzes ibt dem Verf. zufolge in den unter- 
suchten Mundarten einmal eine satzdifferenzierende Funktion aus, zum anderen 
werden mit seiner Hilfe noch die gefiithlsmaBigen Stellungnahmen des Sprechers zu dem 
Gesagten ausgedriickt!*. Romportl geht davon aus, daB diese Leistungen der Satzmelodie 
sich in drei Ebenen vollziehen. Durch unterschiedliche melodische Gestaltung wird ein 
nichtabgeschlossener (weiterweisender) Satz von einem abgeschlossenen differenziert 
(= 1. Ebene), ferner wird eine Entscheidungsfrage von einer Nichtfrage unterschieden 
(= 2. Ebene), und es wird schlieBlich ausgedriickt, ob es sich um einen gefithlsgefarbten 
oder emotional neutralen Ausspruch handelt (= 3. Ebene) !’. 

13 Dariiber ausfiihrlich in einer Arbeit «Satzphonetik des Westlachischen», die 
sich zurzeit im Druck befindet. 

14 Die Titel der Abschnitte wurden von mir iibersetzt — H.-W. W. 

15 M, Romportl: Zum vergleichenden Studium der Satzphonetik. Z. f. Phonetik 0: 
351-358 (1957). Das Zitat S. 352. 

16 Eingangs wurde bereits darauf hingewiesen, daB Verf. den «Sprechmodula- 
tionen» nur eine (wie er sagt) bestimmende und abgrenzende, keinesfalls aber eine 
satzkonstituierende Funktion zuerkennt. 

17 Zum Drei-Ebenen-Schema Romportls und seiner Entstehung vgl. H.-W. Wodarz: 
Uber vergleichende satzmelodische Untersuchungen. Phonetica 5: 75-98 (1960). 


14 Phonetica, Vol. 7, No. 2/3, 1961 
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Es sind drei Haupttypen melodischer Formen zu unterscheiden : ein abschlieBen- 
der, ein weiterweisender und ein interrogativer Typus. Das ist aber nicht die Termino- 
logie des Verfassers. Romportl spricht vielmehr von den melodischen Formen der abge- 
schlossenen Nichtfragesatze, der abgeschlossenen Fragesatze (gemeint sind Entschei- 
dungsfragen) und der Abschnitte vor einer nichtabschlieBenden Pause. Entsprechend 
ist auch das Kapitel «Melodie» gegliedert: A. «Der abgeschlossene Nichtfragesatz»; 
B. «Der abgeschlossene Fragesatz»; C. «Der Abschnitt vor einer nichtabschlieBenden 
Pause». (Es folgt dann noch: D. «AbriB des melodischen Systems der Teschener 
Dialekte».) Die Vor- und Nachteile der angeftthrten Gliederung zu behandeln und sich 
mit den verschiedenen Aspekten auseinanderzusetzen, die in ihr teilweise zur Geltung 
kommen, wiirden den Rahmen der Besprechung sprengen. Es darf nur gesagt werden, 
daB im Hintergrund der Gliederung (wenn auch unausgesprochen) die drei Haupt- 
typen melodischer Formen stehen. Die drei «Satz »-Kategorien beruhen auf melodischen 
Kriterien; jede dieser Kategorien ist mit dem Anwendungsbereich eines der Haupt- 
typen identisch. 

Der abschlieBende Typus gelangt in Aussagen, Aufforderungen, Erganzungsfragen 
und Ausrufen zur Anwendung. (Die Differenzierung dieser Subkategorien erfolgt 
gréBtenteils durch andere als melodische Mittel.) Der neutrale Satz wird durch eine 
konvex absinkende melodische Form gekennzeichnet, die mit der Akzentsilbe des sinn- 
wichtigsten Wortes (des «psychologischen Pradikats») beginnt. Im emotionellen Satz 
wird dieser Verlauf abgedndert in eine tieftonig ebene oder steigend-fallende oder zir- 
kumflektierte Melodiefiihrung, die neben der Abgeschlossenheit gleichzeitig verschie- 
dene emotionelle Gehalte signalisieren. Die weiterweisende Tonfiihrung der nicht- 
abschlieBenden Satze zeichnet sich in einem neutralen Satz durch einen horizontalen 
Verlauf in der relativ mittleren Stimmlage aus, bei emotioneller Farbung dagegen durch 
einen steigenden Verlauf. Auch zum interrogativen Typus, der in Entscheidungsfragen 
angewendet wird, zahlen mehrere Formen mit einem nichtsinkenden Verlauf, dessen 
steigende Tendenz besonders in der bedeutenden Erhohung der SchluBsilbe zur Geltung 
kommt. Fiir die Anzeige emotioneller Gehalte ist die Lage der Akzentsilbe des «psy- 
chologischen Pradikats» bzw. auch die Lage der vorangehenden unbetonten Silbe als 
relevant anzusehen. 

Man sieht, daB eine der Funktionen der 1. und 2. Ebene von der Melodie immer 
ausgetibt wird. Entweder Abgeschlossenheit oder Nichtabgeschlossenheit oder Frage- 
bedeutung (Entscheidungsfrage) werden signalisiert. Die Funktion der 3. Ebene tritt 
dann nach Bedarf hinzu. Bedenkt man nun, daB zu einem der Haupttypen jeweils 
mehrere melodische Formen mit teilweise voneinander stark abweichenden Tonver- 
laufen zahlen, dann ware doch eigentlich die Frage naheliegend gewesen, welche Merk- 
male den verschiedenen Formen des Haupttyps gemeinsam sind, durch welches Merkmal 
(oder welche Merkmale) sich die Formen, die neben der Grundfunktion des Haupttyps 
noch eine emotionelle Funktion ausiiben, von jener unterscheiden, die in der 3. Ebene 
funktionell irrelevant ist, sowie durch welche Merkmale sich erstere noch voneinander 
differenzieren. Diese Fragen wurden vom Verf. bedauerlicherweise nicht gestellt. 
Romportl spricht zwar davon, daB eine melodische Form «durch ihre Gestaltung, genauer 
gesagt durch ihre relevanten Ziige, die sich von den Ziigen anderer melodischer Formen 
desselben mundartlichen melodischen Systems unterscheiden», die Bedeutung und Gel- 
tung (?) eines Satzes bestimmt (S. 76), doch deutet die F ormulierung «von den 
Ziigen anderer Formen desselben... Systems» darauf hin, daB er damit nicht die rele- 
vanten Merkmale im Sinne der obigen Fragen meinte. Das geht auch an mehreren 
Stellen aus seinen Ausfiihrungen hervor. Nur im Bereich der interrogativen melodischen 
Formen nimmt Verf. einen kurzen Anlauf zu einer phonologischen Analyse. Der «Abri8 
des melodischen Systems der Teschener Dialekte» ist eigentlich eine kurze und iiber- 
sichtliche Zusammenstellung des nach den dreierwahnten «Satz »-Kategorien angeordne- 
ten Inventars der in den untersuchten Mundarten automatisierten melodischen Formen. 
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In ihren allgemeinen Ziigen stimmen die satzmelodischen Verhiltnisse der Te- 
schener Mundarten im wesentlichen mit denen des Tschechischen iiberein. Abgesehen 
von Unterschieden im Inventar der melodischen Formen bzw. in der funktionellen 
Anwendung relativ gleicher Formen (diese Unterschiede wurden nicht systematisch 
behandelt) ist im Vergleich mit dem Tschechischen eine Besonderheit durch die Vor- 
letztsilbenbetonung gegeben. Im Normalfall, d. h. wenn das sinnwichtigste Wort am 
Satzende steht, bleibt der funktionstragende Teil der melodischen Linie des Satzes (die 
«melodische Form» oder «Kadenz» — der letztere Terminus wird vom Verf. nicht an- 
gewendet) auf die vorletzte und letzte Silbe eines Satzes beschrankt, wahrend im 
Tschechischen die Lange infolge der Anfangssilbenbetonung variiert. Die Begrenzung 
kann nur infolge einer Akzentverschiebung im sinnwichtigsten Wort oder im Zusammen- 
hang mit einer Veranderung der Struktur des Satzes (Umstellung des « psychologischen 
Pradikats») aufgehoben werden. 

Sprechtempo und Redepause nehmen ebenfalls als «Sprechmodulationen» an der 
«Abgrenzung» bzw. an der «Bestimmung» (und wir fiigen hinzu: auch an der Konsti- 
tuierung) der Redeeinheit «Satz» teil. Wahrend das Durchschnittstempo nur als 
charakteristischer Zug der Redeweise eines Sprechers zu betrachten ist (es gehdért also 
in die sogenannte diagnostische Sphare), ksnnen Tempoveranderungen innerhalb eines 
Satzes sprachlichen Wert erlangen. Die Pausen partizipieren an der Abgrenzung eines 
Satzes, doch kann diese delimitative Funktion nicht selbstandig, sondern nur im Zu- 
sammenhang mit den anderen Faktoren ausgeiibt werden. 

In der Zusammenfassung stellt Verf. fest, daB die behandelten «Sprechmodula- 
tionen» in verschiedenem MaBe und auf verschiedene Weise an der Abgrenzung und 
Bestimmung eines Satzes bzw. Satzabschnitts beteiligt sind. An der Abgrenzung parti- 
zipieren die nachstehenden Faktoren in folgender hierarchischer Abstufung: (1) Pause, 
(2) Dehnung der Endsilbe, (3) Vorhandensein einer melodischen Form. Diese Ab- 
stufung wird jedoch dadurch in Frage gestellt, daB Romportl beim Fehlen eines dieser 
Faktoren das Vorhandensein der tibrigen als ausreichend erachtet, wobei als Beispiel 
eines fehlenden Faktors gerade die Pause (also das in der Abstufung des Verf. wichtigste 
Element) angefiihrt wird. Und im Kapitel iiber Sprechtempo und Redepause lesen wir, 
daB eine Pause ohne das Vorhandensein einer melodischen Form nicht als Mittel der 
Gliederung der zusammenhangenden Rede anzusehen sei (S. 85). 

Die Bedeutung bzw. der «Charakter» eines Satzes oder Satzabschnitts wird vor 
allem durch die melodische Form bestimmt; hinzu treten Akzent sowie (hauptsadchlich 
in der emotionellen Ebene) Quantitétsmodifizierungen. 

Im ganzen glauben wir, daB mit Romportls Arbeit ein wertvoller Beitrag zur Er- 
kenntnis der satzphonetischen Problematik im westslavischen Raum geleistet wurde. 
Kann man der Darstellung der Gegebenheiten ohne gréBere Einschrankungen voll 
zustimmen, so miissen doch gegen Romportls Ansichten iiber die Deutungsmoglichkeiten 
des Materials unter dem diachronischen Gesichtspunkt Bedenken angemeldet werden. 
Verf. méchte seine Arbeit namlich nicht nur als phonetische Studie, sondern dariiber 
hinaus als phonetischen Beitrag zur Lésung dialektologischer und linguistischer Fragen 
aufgefaBt wissen (S. 7 und im deutschen Résumé S. 110). Als eine dieser Fragen wird in 
der Zusammenfassung das Problem des Prozesses der Akzentstabilisierung im West- 
slavischen aufgeworfen. Angesichts der Gesamtsituation der Akzentuierung in den unter- 
suchten Dialekten (starkere oder geringere Neigung zu Akzentverschiebungen) und im 
Hinblick auf die Tatsache, daB Dreisilbler leichter als Vier- oder Fiinfsilbler zu einer 
Akzentverschiebung auf die erste Silbe neigen, wird von Romportl die Vermutung 
ausgesprochen, daB die von ihm vorausgesetzte Entwicklung vom Vorletztsilben- zum 
Anfangssilbenakzent (vom «polnischen» zum «tschechischen» Typus) *® sich nicht auf 

18 Vgl. M. Romportl: K otazce ustaleni z4padoslovanského pfizvuku («Zur Frage 
der Stabilisierung des westslavischen Akzents»). Studie a prace linguistické I (Havrdnek- 
Festschrift), S. 73-80 (Prag 1954). 
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dem Wege iiber einen Nebenakzent auf der Anfangssilbe viersilbiger Worter (bzw. 
Akzenteinheiten) vollzogen habe, sondern eher von einer durch die Tendenz zur 
dynamischen Rhythmisierung des Satzes bedingten Akzentverschiebung in Dreisilblern 
ausgegangen sei. BeeinfluBt von einer starken Frequenz dreisilbiger Worter mit Anfangs- 
silbenakzent kénnte der durch die Tendenz zur dynamischen Rhythmisierung fast 
regelmaBig vorhandene Nebenakzent auf der ersten Silbe der Viersilbler sich sodann 
zum Hauptakzent entwickelt haben. Erscheint diese Hypothese mit Vorbehalten (be- 
sonders hinsichtlich des fiir derartig weittragende SchluBfolgerungen doch relativ 
beschrinkten Materials) noch méglich!, so muB der Versuch abgelehnt werden, auf 
Grund einer Auslegung der gegenwartigen Akzentverhaltnisse hypothetische Erkla- 
rungen tiber den Ursprung der Bevélkerung abgeben zu wollen. Der bestimmte Grad 
der Labilitat der Akzentuierung in der zusammenhangenden Rede wird vom Verf. 
dahingehend interpretiert, daB es in der Vergangenheit zu einer Mischung zweier 
Bevélkerungsgruppen kam, die zwei verschiedenen Akzentuierungstypen angehorten, 
und das héchstwahrscheinlich zu einer Zeit, als die Stabilisierung des Akzents auf der 
ersten bzw. vorletzten Silbe bereits durchgefiihrt war. Die Mundart mit der Panultima- 
betonung habe zwar die Oberhand gewonnen, doch sei eine starke Neigung zur Akzent- 
verschiebung geblieben. Damit diirften die Grenzen der Deutungsméglichkeit des 
synchronischen Materials sichtlich iiberschritten worden sein. 

Um abzuschlieBen: Mit der sehr sorgfaltigen und prazisen Darstellung der Morpho- 
logie der satzphonetischen Elemente in den untersuchten Mundarten hat Romportl 
Vorziigliches geleistet. Die Arbeit enthalt wertvolles Material und einige wichtige 
SchluBfolgerungen. Dadurch diirfte sie auch fiir zukiinftige vergleichende satzphone- 
tische Studien im Slavischen nicht ohne Bedeutung sein. Die Einwande, die im Verlauf 
der Besprechung erhoben wurden, stellen andere Ansichten, andere wissenschaftliche 
Meinungen dar und setzen den Wert der auch in den allgemein satzphonetischen 
Aspekten interessanten Arbeit nicht herab. Hans-Walter Wodarz, Bonn 


19 Mit dem Fiir und Wider dieser Hypothese gedenken wir uns an anderer Stelle 
ausfithrlich zu befassen. 


Kita Tschenkéli: Einfiihrung in die georgische Sprache. Band I, Theoretischer Teil, 
LXIV + 628 Seiten. Band II, Praktischer Teil, X + 614 Seiten. Amirani Verlag, 
Zurich 1958. 


La parution d’une grammaire de la langue géorgienne dans une langue européenne 
est un événement qui mérite qu’on s’y arréte. Les moyens dont on a disposé jusqu’a 
ces temps derniers pour |’étude de cette langue sont, en effet, trés insuffisants. Les 
grammaires de A. Sani 3e, écrites en géorgien, ne peuvent, pour répandre la connaissance 
du géorgien en Europe, rendre que des services trés limités, comme elles supposent 
connue la langue qu’elles décrivent. La petite grammaire d’ Adolf Dirr qui, pendant des 
années était la seule 4 notre disposition, était trés mauvaise a tous les égards. Celle de 
Rudenko, publiée en russe en 1940, avait des qualités, mais dans son classement des 
formes verbales, la seule partie vraiment compliquée de la langue, était trop marquée de 
Vinfluence de Marr pour étre tout A fait satisfaisante*, et mon Esquisse d’une grammaire 
du géorgien moderne, Oslo 1936, dont je me garderai de dire du bien ou du mal, est 
actuellement épuisée. Le présent ouvrage comble ainsi une lacune, et il le comble d’une 
facgon remarquable. 


Deux magnifiques volumes de prés de 1100 pages, trés soigneusement imprimés 


* Voir mon compte-rendu dans Norsk Tidsskrift for Sprogvidensk Ty 2 
p. 272-276, Oslo 1942. sili ka 
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et solidement reliés, l’un contenant une description trés compléte de la morphologie, 
Pautre des exercices, une chrestomathie et des notes trés copieuses avec vocabulaire — 
le tout pour 68 francs suisses — c’est 14 un beau monument que l’auteur a dressé en 
Phonneur de sa langue maternelle. 

Dans l’introduction l’auteur donne un bref apercu du peuple géorgien et de son 
histoire et cite les vues d’un grand nombre de savants sur l’importance des études 
géorgiennes. L’auteur nous informe en grand détail de toutes les difficultés quwil a eu 
a vaincre et finit par nous expliquer le choix de sa méthode de présentation. Sur ce 
dernier point j’aurai a revenir. Pour ma part j’aurais souhaité une attitude plus nette 
de la part de l’auteur vis-a-vis des théories de Marr. Plutdt que de signaler a l’attention 
du lecteur la traduction allemande d’un de ses travaux, il aurait mieux valu les passer 
sous silence. Elles ont 4 uncertainmomentmenacé de discréditer les études caucasiques*. 
Dans la partie phonétique, incorporée d’une facon assez surprenante dans l’introduction, 
lauteur signale l’importance des groupes consonantiques si caractéristiques du géorgien 
et consacre quelques pages a l’exposé des groupes qu’il appelle «harmoniques», c.-a-d. 
composés de termes ou sonores ou sourds aspirés ou glottalisés. Si ces groupes sont 
mentionnés, on s’attend 4 quelques mots sur les groupes assez nombreux qui n’entrent 
point dans cette catégorie. Ils semblent avoir échappé A l’attention de l’auteur, bien 
que leur existence et les problémes de classement qu’ils soulévent soient mentionnés 
dans mon Esquisse. On regrette que l’auteur n’ait pas pu utiliser les importants travaux 
de Sergi Zyent’i sur la phonétique géorgienne, en particulier sur l’accentuation. 

Dans la grammaire proprement dite l’auteur s’est laissé guider par des considéra- 
tions d’ordre pédagogique. I] a renoncé de parti pris 4 la description systématique des 
différentes classes de formes et de mots, pour répartir toute la matiére sur 48 lecons qui 
se succédent dans l’ordre de complexité croissante. Dans la description du systéme 
nominal l’auteur nous donne quelques formes verbales trés fréquentes, ce qui lui permet 
dés les premiers exercices du 2® volume de présenter un certain nombre de petites 
phrases et d’enrichir le vocabulaire du lecteur de legon a legon. Cette méthode a laquelle 
l’auteur semble beaucoup tenir, peut avoir ses avantages, mais elle a aussi ses inconvé- 
nients. L’unité de chaque partie de la morphologie risque d’étre perdue de vue dans ce 
morcellement de la description. Le systéme des cas est ainsi exposé dans la premiére 
lecon, le cas ergatif n’est expliqué que dans la 18°. Les préfixes pronominaux subjectifs 
sont donnés dans la 88 lecon, les préfixes objectifs dans la 31¢, et ainsi de suite. Cette 
méthode par lecons savamment dosées est bien connue des manuels dits pratiques. Les 
linguistes qui s’intéressent surtout aux structures l’aimeront moins bien. Heureusement 
la table des matiéres est assez détaillée, de sorte que le linguiste pourra assez facilement, 
en s’en servant, rassembler les membres disloqués pour en reconstituer l’unité. 

La grammaire est extrémement bien documentée, I’exposé est clair avec une pro- 
fusion de paradigmes et des envois trés nombreux d’une legon aux autres. I] n’appartient 
évidemment pas a4 un étranger de porter un jugement sur la correction idiomatique des 
exemples donnés, les Géorgiens auront a se prononcer la-dessus. Mais j’ai impression 
que l’auteur est partout un guide sir, qui a beaucoup réfléchi sur sa langue et qui a su 
mettre a profit la plus grande partie de la littérature déja existante sur le géorgien. 
Il y a peu de problémes qui n’aient pas regu un traitement dans une partie ou une autre 
de Pouvrage. II est vrai que la syntaxe n’a pas été traitée 4 part, mais la plupart des faits 
syntaxiques sont étudiés avec la morphologie. On aurait souhaité quelques pages au 
moins sur l’ordre des mots dans la phrase. 

On doit louer l’auteur de se baser partout sur des faits purement formels dans sa 
description des formes, fait assez rare dans les grammaires qui visent un public plus 


* On peut maintenant renvoyer a l’ouvrage trés consciencieux de Lawrence L. 
Thomas, The Linguistic Theories of NV. Ja. Marr, Berkeley/Los Angeles 1957, dont jai 
donné un compte-rendu dans Romance Philology vol. XII, 1, Berkeley 1958. 
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large que les spécialistes. I] y a pourtant une exception: l’établissement de la classe des 
verbes indirects a été fait sur des critéres sémantiques. C’est la classe des verbes tels que 
,j’ai sommeil, je crains, j'aime, joublie‘, etc. ot la personne qui est le siege de ces senti- 
ments apparait en géorgien comme régime indirect et ou ce qui, en frangais ou en alle- 
mand, est régime direct, apparait en géorgien comme sujet grammatical. Cette ot 
est peu recommendable, car elle signifie qu’on classe des formes géorgiennes d apres 
leur traduction dans une autre langue. Or, il est parfaitement possible de procéder ici 
aussi avec des critéres formels, si l’on part de l’expression du pluriel. La classe des verbes 
moyens est par contre trés bien définie, bien que, 4 mon avis, elle ne puisse pas etre mise 
sur le méme plan que les classes des verbes actifs et passifs. C’est une classe qui recoupe 
les deux classes mentionnées, étant composée d’une partie des verbes actifs et d’une 
partie des verbes passifs. Mais tout cela n’a au fond qu’un intérét théorique et on 
comprend que l’auteur n’y ait pas trop insisté. 

Le classement des formes verbales, qui est la partie la plus difficile de toute descrip- 
tion du géorgien, est en général trés bien fait. I] ne semble pas se distinguer de celle de 
Sanize ni de celle que j’ai appliquée dans mon Esquisse. Mais sur beaucoup de points 
auteur apporte des précisions excellentes et parfois il ajoute 4 notre connaissance des 
faits. Je voudrais surtout attirer l’attention sur l’exposé des aspects et du réle des pré- 
verbes dans les différentes classes des verbes. La «polyvalence» de beaucoup de formes 
verbales est trés bien mise en relief, comprenant par ce terme le fait que la valeur d’une 
forme verbale est ambigué tant que l’on ne sait pas dans quelle série de formes elle 
s’insére. Ainsi la forme ec’ereba est polyvalente: dans la mesure ow elle s’oppose a ic’ereba 
c’est le présent du passif relatif de procés du verbe c’era écrire. Dans la mesure ou elle 
s’oppose a se’eria, ac’eria ou uc’eria c’est le futur du passif d’état du méme verbe, et 
ainsi dans beaucoup de cas. 

L’ouvrage a deux défauts. Dans son désir trés louable de tout dire, l’auteur est 
tombé dans une prolixité qui géne depuis l’introduction jusqu’aux derniéres pages. 
La présentation d’un ensemble de formes dans des paradigmes, c’est excellent, mais 
la multiplication de paradigmes parfaitement réguliers, absolument identiques au point 
de vue formel, c’est pour le lecteur une source d’obscurité plutét qu’un avantage. Les 
combinaisons des préfixes subjectifs et objectifs dans une seule et méme forme, c’est 
évidemment une difficulté pour beaucoup de lecteurs, mais dans le présent ouvrage 
exposé de ces combinaisons remplit des pages et des pages, répété pour chaque classe 
verbale. Un effort de concision et un emploi modéré de quelques tableaux d’ensemble 
auraient permis de réduire le nombre des pages considérablement, d’un tiers peut-étre. 
C’est 1a une économie dont le livre aurait profité 4 tous égards et elle aurait permis de 
remédier au deuxiéme défaut de l’ouvrage, l’absence d’un index. Le lecteur qui cherche 
les formes de futur des présents tels que vsvrebi je fais, vambob je dis, vgr 3nob je sens, vuneb 
je nuis, se trouvera bien embarassé. Je suis sir que l’auteur saurait nous dire ot l’on 
trouverait ces renseignements, soit dans la grammaire soit dans le deuxiéme tome. 
Avec un index d’une vingtaine ou d’une trentaine de pages le lecteur les aurait trouvés 
sans difficultés. 

J'ai peu de remarques 4 faire 4 propos du deuxiéme volume que je n’ai pas pu 
examiner en détail. Il contient 394 pages d’exercices de 48 lecons de grammaire et 
217 pages de textes littéraires, tous pourvus d’une traduction en allemand et de notes 
explicatives trés détaillées. Tous les matériaux lexicaux de ce volume constitueraient A 
eux seuls un petit dictionnaire, et on finit par se demander s’il n’aurait pas mieux valu 
les présenter en appendice, dans l’ordre alphabétique. 

Les critiques qu’on peut adresser A l’auteur sont toutes d’importance secondaire, 
elles ne touchent pas au fond. Nous avons maintenant en main un outil perfectionné, 
bien que de maniement un peu lourd, pour lapprentissage et l’enseignement du 
géorgien. Nous n’avons rien de semblable pour aucune autre langue du Caucase. 

Hans Vogt, Oslo 
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Felix Kahn: Phonétique et grammaire comparatives pour Penseignement et l’allemand 
dans les écoles primaires et secondaires de langue frangaise. Cahiers Ferdinand 
de Saussure 16, Libraire E. Droz, Genf 1958. 90 S. 


' Das Interesse, das Felix Kahn Strukturproblemen der modernen Sprachen entgegen- 
bringt, hat er bereits durch seine Arbeit «Le systéme des temps de l’indicatif chez un 
Parisien et chez une Baloise» (Genf 1944) dokumentiert. Freilich, wie sich noch zeigen 
wird, ist es etwas anderes, ob sich eine derartige Untersuchung auf die Muttersprache 
oder eine Fremdsprache bezieht. 

Behandelt werden: I. Faits phoniques allemands sans équivalent exact en frangais. 
II. Rapports entre la prononciation et l’orthographe. III. Fait grammaticaux allemands 
sans équivalent exact en frangais (A. Genres, B. Cas et prépositions, «zu» devant l’in- 
finitif, conjonctions, adverbes, C. La place des termes). 

Kahn setzte sich diesmal ein vorwiegend didaktisches Ziel: eine vergleichende 
Lautlehre und Grammatik des Deutschen und Franzésischen zu Unterrichtszwecken. 
Allerdings ist der Grundsatz «le maitre ne s’attardera pas longtemps aux faits de la 
langue étrangére qui sont semblables a ceux de la langue maternelle» diskutabel. 
Gerade Ahnlichkeiten tauschen oft iiber sehr stérende Verschiedenheiten hinweg; so 
ist es, um nur ein Beispiel zu nennen, vollig abwegig, das «e» des Wortes «Kiiste» mit 
dem sogenannten «e muet» artikulatorisch gleichzusetzen. Der deutsche Laut ist un- 
gerundet, der franzdésische gerundet! Zweifellos eine haufige Fehlerquelle des deutsch 
sprechenden Franzosen. 

Zu S. 37: Da die Bihnensprache nur ein mittleres «a» kennt, so unterliegt dieser 
Vokal nicht in derselben Weise dem Gegensatz: langer geschlossener — kurzer offener 
Vokal. 

Sehr zu begriiBen ist der Hinweis auf das noch nicht geniigend bekannte Unter- 
bleiben der regressiven Assimilation (z. B. Innsbruck) entsprechend franzésischen Fallen 
wie: une patte d’oie, wo Sonorisierung der Tenuis eintritt (41). 

Zur Grammatik: Die didaktische Bestimmung des Buches verbietet es grundsatz- 
lich, entwicklungsgeschichtlich bedingte Schwankungen in besonderem MaBe zu be- 
riicksichtigen. In allen Fallen tiber sie hinwegzugehen, halte ich jedoch nicht fiir ratsam. 
Beim Geschlecht der franzésischen Staédtenamen etwa: mit Recht bemerkt Dauzat 
(dessen ausgezeichnete «Grammaire raisonnée de la langue frangaise» leider nicht be- 
nutzt wurde) mit Bezug auf die Stadtenamen, die auf ein «e instable» ausgehen: «Tout 
au moins pour les villes frangaises, le masculin l’emporte» (p. 79). 

Es ware von Vorteil gewesen, darauf hinzuweisen, daB deutsche Lander- und 
Gebietsnamen auf -—ei, —ie oder —e weiblich sind (Duden 143). «AuBer» ist im Gegensatz 
zur Auffassung Kahns eine durchaus gebrauchliche Praposition (56). Bei «trotz» steht 
neben dem Genitiv auch der Dativ (57), ebenso bei «langs». Bei der Frage, wann «de» 
oder «par» beim Urheber der passiven Handlung steht, geniigt es nicht, nur auf 
Grevisse hinzuweisen; Dauzat, Gr.r.355 gibt diesbeziiglich wertvolle zusatzliche Be- 
merkungen. 

Beim Genus verbi (58 ff.) ware auch der Typus « Défense de parler ici» zu erwah- 
nen gewesen. Ebenso: «II s’est vu refuser le visa.» 

Es ist irrefithrend, zu behaupten (64), «l’allemand emploie l’imparfait plus sou- 
vent que le frangais». So zu argumentieren, wird erst méglich, wenn man willkirlich 
die «savais»-Form mit der «wuBte»-Form unter einer Etikette zusammenfaBt. AuBer- 
dem kénnte man dem Beispiel: «Ich kam, sah und siegte» (je suis venu usw.) andere 
entgegenstellen, z. B. «hast du das gewuBt?» — «tu le savais?». 

Bei einer vergleichenden Strukturlehre des Deutschen und Franzésischen miBte 
auch auf die Wiedergabe deutscher Participia praesentia hingewiesen werden. Sehr 
haufig entspricht im Franzésischen eine andere Ausdrucksform: Relativsatz (Das Bild 
stellt ein schlafendes Kind dar: ...un enfant qui dort), Part. perf. (un enfant endormi), 
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Praposition-++ Subst. (Flichende Truppen: des troupes en fuite) : Schon Dubray wies darauf 
hin, daB demgegeniiber das franzésische Particip praes. haufig adjektivischen Charakter 
hat (un visage riant = ein heiteres Gesicht; brilant = brennend heiB usw.). , 

Die Arbeit Kahns ist ein sehr verdienstvolles Bemiihen, Strukturunterschiede des 
Deutschen und Franzésischen in einer ansprechenden lebendigen Art aufzuzeigen. 
Leider verliert das Buch dadurch ungemein an Wert, daB es nicht in Zusammenarbeit 
mit einem Deutschen verfaBt beziehungsweise von einem solchen kontrolliert worden 
ist*, Wenn Kahn schreibt: «La plupart des mots sont forgés pour les besoins de la cause, 
mais d’aprés des modéles qui me sont familiers depuis des années» (36), so ist diese 
«familiarité» manchmal zu bedauern. Eine Kostprobe: «Gestern bin ich weder zu 
Hause geblieben, noch zu meiner GroBmutter gegangen. Zum Geburtstag und zum 
Ausruhen (!) durfte ich um den See fahren. Ohne Angst (!) nahmen wir statt eines 
Dampfers ein kleines Motorboot. Gestern hatte ich die Erlaubnis, auf den See zu ge- 
hen (!), um einen schénen Geburtstag zu haben und mich richtig auszuruhen. Ohne 
uns vor Schwierigkeiten zu fiirchten (!), nahmen wir ein kleines Motorboot, statt auf 
einem Dampfer zu fahren. Wir fuhren nicht zu schnell, aber unsere Reise wurde zu 
lang (!). Als wir heimkamen, waren sogar die Backereien zu, und manche Leute machten 
schon die Fensterladen zu.» 

Oder (S. 76): «Wovon spricht Hans, vom Wetter? Ja, das ist es, wovon er immer 
spricht (!). Woran denkst du, an deinen Aufsatz? Nein, es ist nicht das, woran ich 
denke (!).» Hier wird es besonders deutlich, wie Kahn mit deutschen Wortern franzé- 
sisch zu sprechen versucht. Ebenso, wenn es heiBt: «Die Kranke wird vom Arzt operiert. 
Sie ist von einem Sturm erschiittert (!!) und durch einen Stein verletzt worden.» Es 
lieBen sich noch zahlreiche Beispiele dieser Art anfiihren, die das Buch, solange es nicht 
von einem Deutschen korrigiert wird, fiir den Unterrichtsgebrauch untauglich machen. 

Wolfgang Pollak, Wien 


* Etwa nach dem Vorbild der ausgezeichneten «Grammaire de lallemand» von 
J. Fourquet (Paris 1952). 


André Martinet: Eléments de linguistique générale. Librairie Armand Colin, Paris 1960 
(Collection Armand Colin, Section de littérature. 349.) 224 p. 


André Martinet, «maestro y guia de una nueva generacién de linguistas»1, legt die 
Grundziige der allgemeinen Sprachwissenschaft dar, wie er sie in Ahnlicher Form seinen 
Ho6rern an der Sorbonne vortragt. Dies ist allerdings ein Buch «fiir Leser aller Fakul- 
taten»: Auseinandersetzungen sind selten, Belege und Zitate fehlen ganz, und nur ein 
kurzes, geschickt ausgewahltes Literaturverzeichnis (S. 218-220) fiihrt in das Schrift- 
tum ein. Der fachfremde Leser mag daher gelegentlich eine plausible Hypothese fiir ein 
gesichertes Ergebnis halten; er wird die These kennenlernen, doch nicht die Antithese, 
und die Frage nach der Méglichkeit einer Synthese wird ihm nicht in den Sinn kommen. 

Solche Nachteile sind bewuBt in Kauf genommen (S. 6) und mindern das Verdienst 
des Buches nicht. Wir sehen mindestens zwei Griinde, es willkommen zu heiBen: 
1. Jeder Interessierte erhalt die Chance, sich iiber einen Teil der Methoden zu unter- 
richten, die die moderne Sprachwissenschaft charakterisieren; 2. Linguisten, Philologen, 
Phonetiker und nicht zuletzt die Studenten der entsprechenden Facher haben die Auf- 
fassungen eines der einfluBreichsten Linguisten unserer Tage in zusammenhangender 
Form bequem zur Hand (obgleich man in Einzelfragen auf die zahlreichen Spezial- 
arbeiten des Verfassers zuriickgreifen muB)?. Dies aber scheint einem dringenden Be- 
diirfnis entgegenzukommen. Kaum ein Linguist beherrscht heute das Gesamtgebiet der 


* Estructuralismo e historia. Miscelanea homenaje a André Martinet (Bd. 1-2. La 
Laguna 1957. Mit Bibliographie bis Zaje 1956) Bdaleses. 
* Zur Bibliographie vg]. Anm. 1. 
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Linguistik; es ist fast unméglich geworden, alle Probleme und ihre Loésungsversuche im 
Auge zu behalten. Uberdies unterscheiden sich verschiedene Schulen in ihren methodolo- 
gischen Annahmen, und die Entwicklung der Terminologie scheint zentrifugalen 
Kraften zu gehorchen — konstant aber bleibt die menschliche Arbeitskraft. Solange zu 
ihrer Entlastung nicht auch auf unserem Gebiet elektronische Hilfsmittel eingesetzt 
werden kénnen, gehéren methodologisch orientierende Zusammenfassungen ebenso zu 
unserem wissenschaftlichen Existenzminimum wie Bibliographien, terminologische 
Worterbiicher und die private Spezialkartei. 

In Deutschland werden Sprachwissenschaft und Sprachphilosophie oft verwechselt; 
Betrachtungen iiber das «Wesen» der Sprache kénnen als Einfiihrung in die allgemeine 
Sprachwissenschaft ausgegeben werden. Deshalb sei Martinets Auffassung von Sprach- 
wissenschaft und Sprache kurz wiedergegeben. 

Fir Martinet ist die Sprachwissenschaft eine beschreibende Wissenschaft, ihr Gegen- 
stand primar die gesprochene Sprache als eine Institution, die eine Verstandigungsgemein- 
schaft konstituiert. Sie erfiillt diese ihre Hauptfunktion durch eine zweifache Gliederung 
(double articulation) *: 

1. Die Erfahrungsdaten der Sprachgemeinschaft werden so ausgewahlt und ge- 
ordnet, da®B sich jede Situation durch eine bestimmte Anordnung einer endlichen 
Anzahl isolierbarer Einheiten darstellen 1a8t, denen je ein Lautkomplex zugeordnet ist 
(premiére articulation) ; 

2. die Lautkomplexe ihrerseits sind aus Lauteinheiten aufgebaut, deren Anzahl 
begrenzt, aber gro genug ist, um in bestimmten Kombinationen jeden Lautkomplex 
im Prinzip unverwechselbar zu machen (deuxiéme articulation). 

Beide Gliederungen schlieBen Abstraktionsvorgange ein. Im Prinzip wird jede 
Sprache auf ihre eigene Weise abstrahieren. Eine Sprache ist daher keine Nomenklatur 
fiir vorgegebene Gegenstande (S. 14). Angesichts der in Theorie und Praxis immer 
wiederkehrenden Identifizierung von «Wort» und «Sache» kann dieses Prinzip nicht 
oft genug ausgesprochen werden. Nicht zuletzt liegt es auch der historisch-vergleichen- 
den Methode zugrunde?#. 

Ein beliebiger Lautkomplex, der eine «Bedeutung» hat, wird ein Zeichen (signe, 
bestehend aus signifiant und signifié) genannt; die kleinsten Zeichen heifen Moneme, die 
kleinsten Einheiten der zweiten Artikulation sind die Phoneme. 

Gegliedertheit der Sprache und Linearitat des Sprechvorgangs zwingen den 
Sprecher an jedem Punkt des Sprechablaufs zu einer Wahl unter den an diesem Punkt 
zugelassenen Einheiten des Systems. Jede Einheit steht daher in einem doppelten 
Bezugsverhiltnis: Sie steht in einer syntagmatischen Beziehung, d. h. in Kontrast zu ihren 
Nachbareinheiten; und in einer paradigmatischen, d. h. in Opposition zu den Einheiten, 
die in einer bestimmten AuGerung an ihrer Stelle stehen kénnten®. 

Dies sind die allgemeinen Merkmale, die ein Verstandigungssystem nach Martinet 
aufweisen muB, wenn es zum Gegenstand der Sprachwissenschaft werden soll. Diese 
Merkmale sind per definitionem universell; was dariiber hinaus universell sein mag, 
muB die Erforschung des Spezifischen in allen Einzelsprachen ergeben. 

Wir haben die Definition deshalb so ausfiihrlich wiedergegeben, weil ihre Bestand- 
teile den Wert von Axiomen in Martinets Auffassung von Sprachwissenschaft haben, 


8 Vgl. A. Martinet: La double articulation linguistique. TCLC 5: 30-37 (1949) 
(Recherches structurales 1949); ders.: Arbitraire linguistique et double articulation. 
CFS 15: 105-116 (1957). 

4 4. Meillet: Introduction 4 I’étude comparative des langues indo-européennes. 
8. Aufl. (hg. v. E. Benveniste, Paris 1937), S. 14-15. 

5 Vgl. auch A. Martinet in Word 9: 9, Anm. 21 (1953); ders. in Actes du VIIle 
Congrés International des Linguistes, Oslo 1958, S. 213; und ausfiihrlicher L. 7. Prieto: 
Traits oppositionnels et traits contrastifs. Word 10: 43-59 (1954). 
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unabhangig davon, ob sie Hypothesen oder Fakten sein mégen. Sie bilden ein Bezugs- 
system fiir die nachfolgenden Einzelheiten, und diese k6nnen nur aus jenen verstanden 
werden. So werden zunichst die Prinzipien der Sprachbeschreibung abgeleitet: 

Eine Sprache kann als Verstandigungssystem sachgemaB nur synchronisch be- 
schrieben werden, obgleich sich jede Sprache verandert. Fur die Beschreibung einer 
Einzelsprache ist nur das relevant, was der Wahl des Sprechers unterliegt, d. h. die 
Einheiten des Sprachsystems mit ihren Funktionen. Insbesondere kann nur die In- 
formation als iibermittelt angesehen werden, die in irgendeiner Weise als formal mani- 
festiert nachgewiesen werden kann (S. 42-43). Auf die Gefahren einer Analyse auf 
Grund von Ubersetzungen wird ausdriicklich hingewiesen. Nur aus praktischen Griinden 
(S. 41 oben) schlieBt Martinet das Verfahren, durch eine Untersuchung der Distribution 
der signifiants allein zu einer Analyse des Zeichensystems zu gelangen, als unzweckmaBig 
aus. Es mu dazu angemerkt werden, daB gegen dieses Verfahren aber auch schwer zu 
widerlegende theoretische Argumente vorgebracht worden sind, vor allem der Vorwurf 
der Zirkularitat®. 

Es folgt S. 45-51 eine Auffiihrung der Grundbegriffe der artikulatorischen Pho- 
netik mit der Begriindung, sie biete nicht nur ein bequemes Verstandigungsmittel, 
sondern auch «permet de mieux percevoir la causalité des changements phonétiques» 
(S. 45); wir miissen den zweiten Teil dieser Begriindung den Phonetikern und Phono- 
logen zur kritischen Priifung tiberlassen und begniigen uns damit, vor einer Oberflachen- 
behandlung der Kausalitat zu warnen — sicherlich im Sinne des Verfassers der « Eco- 
nomie des changements phonétiques»»’. 

Die Funktionen der Phoneme sind nach Martinet distinktiv = oppositiv, kontrastiv 
und expressiv (S. 52-53). Wir méchten vorschlagen, den Gebrauch der Ausdriicke 
«oppositiv» und «kontrastiv» auf die Bezichungen der Phoneme (und der Moneme) 
untereinander zu beschranken (so S. 33!, vgl. hier oben S. 185), dagegen die Funktionen 
der Phoneme in bezug auf die Identifikation bzw. die Abgrenzung von Monemen als 
distinktiv bzw. demarkativ (so auch Martinet S. 91-93!) zu bezeichnen und eine Ver- 
mischung dieser Gebrauchsweisen zu vermeiden. 

Die Aufstellung eines Phonemsystems wird eingehend dargestellt: Zunachst werden 
Segmente in ihre kleinsten Bestandteile, die Einzellaute, zerlegt; die Technik kann als 
bekannt vorausgesetzt werden. Als zweiter Schritt werden die Kontextbedingtheiten 
eliminiert. Wahrend es nun gangige Praxis ist, davon auszugehen, daB «phonetisch 
ahnliche» Laute Allophone eines Phonems darstellen, schlagt Martinet eine differen- 
ziertere Methode vor: Fiir jeden Laut in bestimmter Umgebung wird festgestellt, in 
welchen Beziehungen er zu den iibrigen Lauten steht, die in dieser Umgebung an seiner 
Stelle vorkommen kénnten. Zur Definition der «Beziehungen» dienen die traits per- 
tinents, die kleinsten lautlichen Merkmale, die hinreichen, um zwei Laute (einer ge- 
gebenen Sprache) voneinander zu unterscheiden. Die Beziehungen der Laute zuein- 
ander werden fiir jede lautliche Umgebung gesondert bestimmt. Ein Phonem stellen 
schlieBlich diejenigen Laute dar, die in jeder lautlichen Umgebung zu den iibrigen 
Lauten, die an ihre Stelle treten kénnten, in gleichartigen Beziehungen stehen®. Die 
Definition ist also paradigmatisch, nicht syntagmatisch (distributionell). Erganzend 


° H. Frei: Critéres de délimitation. Word 10: 136-145 (1954); E. Haugen: Direc- 
tions in Modern Linguistics. Lg. 27; 211-222 (1951); (zugl.:) Readings in Linguistics. 
The development of descriptive linguistics in America since 1925, hg. v. M. Joos 
2. Aufl. New York 1958, S. 357-363. 

7 A. Martinet: Economie des changements phonétiques. Traité de phonologie dia- 
chronique. Bern (1955). (Bibliotheca Romanica. Series prima. 10.) 


8 Vgl. hierzu auch A. Martinet: Substance phonique et traits distinctifs. BSL 53, 
Fasc. 1; 72-85 (1957-1958). 
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werden die Begriffe Variante, Neutralisation und Archiphonem besprochen (S. 67—73) ®. 

Bei der Erérterung des Unterschiedes von Vokalen und Konsonanten (S. 74-75) 
wird als Spezialfall erwahnt, daB® im Franzésischen i und Jj nicht ein Phonem (mit zwei 
Varianten) darstellten, sondern zwei Phoneme. Zur Begriindung werden die Gegensatz- 
paare pays: paye, abbaye: abeille angefiihrt. Dazu heiBt es ferner, daB die Opposition von 
i und j tiberall neutralisiert sei, auBer im Silbenauslaut. Nun ist aber kurz vorher (S. 74) 
implizit zugestanden worden, daB pays zweisilbig ist. Wir sehen nicht, wie sich die beiden 
Aussagen miteinander vereinbaren lassen. Es scheint uns auch nicht gliicklich, die Falle 
vom Typ fr. /kao/:/kap/1° als Beispiel dafiir heranzuziehen, daB Vokale und Konso- 
nanten in den gleichen Umgebungen vorkommen kénnen. 

Die Schwierigkeiten, die die prosodischen Erscheinungen bieten, sind bekannt. 
Im Rahmen der Martinetschen Grundannahmen stellen sie sich u. a. so dar: Die proso- 
dischen Erscheinungen sind nicht der zweiten Artikulation unterworfen; in irgendeiner 
Weise sind Intonation, Akzent, Tonhéhe, Energie, Lautdauer stets beim Sprech- 
vorgang anzutreffen, der Sprecher hat daher nicht die Wahl zwischen ihrer An- und 
Abwesenheit; «en conséquence, ils se prétent moins bien a caractériser des unités 
discrétes» (S. 77). Intonationskurven sind dariiber hinaus prinzipiell nicht in diskrete 
Einheiten auflésbar, also nicht der doppelten Artikulation unterworfen, und haben 
daher nicht einen «caractére proprement linguistique» im Sinne von Martinets Defini- 
tion. Dem entspricht es, daB sie «des fonctions mal différenciées» haben (S. 79). Es 
gebe z. B. fiir das Franzésische keine deutliche Grenze zwischen Aussage- und Frage- 
intonation. Uns scheint allerdings, daB der Hérer dennoch nur drei Méglichkeiten des 
Verstehens behalt: (1) Aussage, (2) Frage, (3) Zweifel an der Wahl zwischen (1) und (2); 
dagegen gibt es kein drittes Signal, das er auffassen kénnte. Expressive Nuancen kénnen 
in (1) wie auch in (2) tibermittelt werden. Sind also beim Sender keine Stufen aufweisbar, 
so doch beim Empfanger, und der Sender kann in jedem Falle deutliche Signale geben. 
Es mag somit auf die Methode ankommen, ob man diskrete Einheiten ermittelt oder 
nicht. 

Das Kapitel «Les unités significatives» (S. 97-145) enthalt die Ergebnisse eines 
Versuchs (vgl.S. 7), eine umfassende Theorie der Moneme aufzustellen™. Zunachst 
wird die Analyse von AuBerungen in kleinste bedeutungstragende Einheiten besprochen, 
namlich die Moneme, ihre Varianten (/Zvé/ «je vais» : /tiiva/ «tu vas»; /Zp6/ «je 
peux» : /Zpiii/ «je puis») und ihre Verschmelzungen (amalgames): /o/+C z. B. «au 
professeur» : /a 1/+V z. B. «a Pétudiant». 

(Zu den Varianten des engl. nominalen Pluralmonems heiBt es [S. 103]: «...Val- 
ternance de /s/ et de /z/ n’est toutefois pas déterminée phonologiquement par le contexte 
phonique, puisque since /stns/ existe a cété de /stnz/; son conditionnement peut étre 
formulé en termes phoniques, mais il ne vaut que pour un emploi morphologique 
déterminé.» Eine solche morphologisch bedingte Sonderbehandlung von Phonemen 
mag aus verschiedenen Sprachen zu belegen sein; fiir das zitierte Beispiel gilt sie jedoch 
nur dann, wenn man /s/ als die Grundform des Monems ansetzen will; doch nichts 
zwingt uns dazu, und die Verteilung der Varianten /s © z © 1z/ 1a4Bt sich zwangslos 
plausibel machen, wenn man /tz/ oder /z/ [mit unterschiedlichen Konsequenzen] als 
Grundform annimmt.) 

AnschlieBend (S. 104-127) werden verschiedene Unterscheidungen getroffen, die 
zu einer Hierarchie der Moneme fiihren sollen. Unterschieden werden drei Arten, eine 


® Anwendungsbeispiele finden sich bei A. Martinet: La description phonologique, 
avec application au parler franco-provengal d’ Hauteville (Savoie), Genf 1956, sowie bei 
Don Graham Stuart und Matthew M. Haltod: The Phonology of the Word in Modern 
Standard Mongolian. Word 13: 65-98 (1957). 

10 Ebenso z. B. in: Substance phonique... (vgl. Anm. 8), S. 72-73. 

11 Vgl. A. Martinet: Elements of a Functional Syntax. Word 16: 1-10 (1960). 
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Funktion zu kennzeichnen, zwei Typen von Funktionen (primar und sekundar) und 
danach verschiedene Arten von Monemen: autonome, funktionelle und « abhangige», 
die wieder in «régis» und «déterminants» zerfallen; ein anderes heseare seve 
ergibt grammatikalische Moneme (= Morpheme) und lexikalische Moneme te - 
xeme, friiher Semanteme genannt); die grammatikalischen monemes déterminants “re = 
modalités (engl. modifiers) genannt (Artikel, Genus-, Numerusformantien u. dgl.). Es 
ergibt sich somit, wenn wir recht verstanden haben, folgendes Bild: 


monémes 
te ieee 
autonomes non autonomes 
( ae at gaipal 
grammatikalis me 
régis re 
(grammatikalisch) (lexikalisch) modalités —_ (lexikalisch) 
(grammatikalisch) 


Man wird finden, daB diese Einteilung und der zugrunde liegende Text mehr als 
ein Problem enthalten, das «neuf, trop neuf pour un manuel comme celui-ci» (vgl. 
S. 7) ist. Um einige davon zu nennen: In welchem Sinne kann man sagen, daB «ily a 
des énoncés tels que je partirai demain dont le sens ne varie jamais si je change l’ordre de 
certains monémes et dis demain, je partirai» (S. 105)? — Ist die angegebene Definition von 
«Funktion» methodisch fruchtbar? Die Formulierung «Fonction désigne ici le fait 
linguistique qui correspond au rapport entre un élément d’expérience et l’expérience 
globale» (S. 109) scheint uns nicht ohne Zirkularitat anwendbar. — Konnen alle Ab- 
hangigkeitsverhaltnisse unter dem Stichwort «Subordination» zusammengefaBt wer- 
den? — Ist es hinreichend gesichert, daB die monémes autonomes wie franz. hier, demain, 
aujourd’hui «impliquent leur rapport avec le reste de l’énoncé» (S. 107) und daB in 
einem «autonomen Syntagma» wie l’an dernier «c’est l'ensemble des monémes en cause 
qui indique son rapport avec le contexte» (S. 109)? — Verbirgt sich hinter der Fest- 
stellung «le déterminant grammatical /e est un élément centripéte, le monéme fonc- 
tionnel avec un élément centrifuge, selon le schéma <— avec le —> sourire» (S. 118) der 
Ansatz fiir ein neues Modell zur Beschreibung syntaktischer Konstruktionen? 

Die Unterscheidung von monémes fonctionnels und modalités auch und gerade dort, 
wo sie miteinander verschmelzen oder sich morphologisch ahnlich verhalten, scheint 
und besonders bemerkenswert; fiir viele hat sie ungewohnte Konsequenzen fiir die Be- 
schreibung von Genus, Numerus, Kongruenz u. a. m. (sie ist aber implizit z. B. bereits 
von Harris unter dem Stichwort «morphemic long components» vorgenommen wor- 
den)". Im iibrigen wird man abwarten miissen, wie weit dieser Entwurf zu einer 
funktionellen Syntax ausgebaut werden muB, wenn er auf die Beschreibung einer kon- 
kreten Sprache angewendet wird ; méglicherweise muB er durch eine andere Konzeption 
erganzt werden. 

Das 5. Kapitel ist der Vielfalt der sprachlichen Grenziibergange gewidmet; der 
Begriff der Einzelsprache wird flieBend; altersmaBige, soziale, geographische Unter- 
schiede erhdhen die Schwierigkeit, zwischen Dialekt und Sprache scharfe Grenzen zu 


2 Xellig S. Harris: Structural Linguistics. 4. Aufl. (friiherer Titel: Methods in 
Structural Linguistics), Chicago 1960 (Phoenix Books. 52), 299-324. 
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ziehen. Konvergierende Tendenzen und der Gegensatz von Umgangs- und Literatur- 
sprache komplizieren die Verhaltnisse noch weiter. Verschiedene Typen von Hilfs- 
sprachen vermitteln dort, wo scharfe Sprachgrenzen die Verstandigung ganz zu ver- 
eiteln drohen. Zugleich stellt sich das Problem der Mehrsprachigkeit, worunter nach 
Martinet nur in Ausnahmefallen die vollkommene Beherrschung von zwei oder mehr 
Sprachen zu verstehen ist, und das der gegenseitigen Beeinflussung mehrerer Sprachen. 

Das Kapitel « L’évolution des langues» 18 behandelt allgemein die Zusammenhange, 
die bei der Untersuchung von Entwicklungen zu beachten sind. Nach Martinet haben 
sprachliche Veranderungen insofern soziale Ursachen, als sie veranderten Kommunika- 
tionsbediirfnissen entsprechen (S. 178); diese Ursachen wirken sich jedoch so langsam 
aus, daB inzwischen andere Ursachen auftauchen und zu wirken beginnen; bei solcher 
Uberlagerung von Ursachen und Folgen bleibt dem Sprachwissenschaftler nichts an- 
deres tibrig, als die «inneren» Ursachen zu untersuchen, wie sie sich aus der synchroni- 
schen Beschreibung ableiten lassen, «l'étude des conflits qui existent 4 l’intérieur de la 
langue dans le cadre des besoins permanents des étres humains qui communiquent 
entre eux au moyen du langage» (S. 181-182). Dazu ware zu bemerken, daB der Beweis 
fiir eine soziale Bedingtheit sprachlicher Veranderungen, so einleuchtend sie auch 
scheinen mag, noch zu fihren bleibt. 

Ein wichtiger Ansatzpunkt der Forschung ist die Tendenz der Sprache zur Spar- 
samkeit, wobei zwischen économie syntagmatique und économie paradigmatique unterschieden 
werden kann. Die Okonomie findet ihre Grenze an der Notwendigkeit, eine deutliche 
Verstandigung aufrechtzuerhalten; ob sich eine solche Grenze in dem komplexen 
Material einer konkreten Sprache nicht nur postulieren, sondern auch nachweisen 1aBt, 
scheint uns eines der wichtigsten Probleme der Kommunikationswissenschaft und zu- 
gleich der recht verstandenen diachronischen Sprachforschung zu sein. 

Die Anwendungsmoglichkeiten der Informationstheorie auf die Sprache werden 
erlautert, wobei es allerdings (resignierend?) heiBt: «...ce que nous devons retenir des 
enseignements de la théorie de l’information ressortit largement au sens commun) 
(S. 188). Es werden Beispiele aus Lexik, Morphologie und Phonologie gegeben. Selbst 
stilistische Fragen erscheinen in einem neuen Licht. Es ist Gelegenheit, daran die Griinde 
fiir die verbreitete Ablehnung quantitativer Methoden in den «Geisteswissenschaften » 
zu tiberpriifen. 

Die Grenzen der quantitativen Methoden liegen allerdings dort, wo sich die 
Qualitat der beteiligten Elemente auswirkt (S. 205). So sind Phoneme und Moneme 
dem angleichenden, gewissermaBen einebnenden «Einflu8» ihrer Nachbarschaft aus- 
gesetzt (syntagmatisch), dariiber hinaus aber auch einem «Systemdruck» (paradigma- 
tisch): Es herrscht daher ein Gleichgewicht zweier Tendenzen, besser vielleicht: eine 
Tendenz zu ihrem Gleichgewicht. An diesem Punkt 14Bt sich also eine beginnende 
Entwicklung erfassen, wenn man iiber geeignete Methoden verfiigt. Die méglichen 
Ursachen einer Weiterentwicklung schon der phonologischen Systeme kénnen jedoch 
sehr mannigfaltig sein. Vermutlich empfiehlt es sich, den Begriff Ursache noch einige 
Zeit aus der Diskussion herauszulassen und sich bewuBt mit einer vollstandigen Be- 
schreibung des Befundes und der inneren Zusammenhange zu bescheiden. Dazu findet 
man reiche Anregung bei der Besprechung der Dynamik phonologischer Systeme 
(S. 208-217), der Ubertragung funktionell wichtiger Lauteigenschaften auf benachbarte 
Phoneme!4, der mehr oder weniger weitgehenden Integration eines Phonems in das 
System der traits pertinents und ahnlicher funktionalistischer Gesichtspunkte. 

Wir haben die Besonderheiten von Martinets Auffassung erwahnt, ohne auf die 


18 Zum Folgenden vergleiche man die Economie des changements linguistiques 


(s. Anm. 7). 
14. Vgl. A. Martinet: Concerning the Preservation of Useful Sound Features. 


Word 9: I-11 (1953). 
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Begriffsgeschichte eingehen, alle Verbindungen zu de Saussure und Trubetzkoy nach- 
zeichnen oder abweichende Anschauungen danebenstellen zu kénnen. Die Unterschiede 
zu anderen linguistischen Schulen sind zum Teil nur terminologischer Art (Morphem: 
Monem), zum anderen Teil methodologisch (Paradigma gegen Distribution, traits 
pertinents gegen distinctive features) oder schwerpunktmaBig, d. h. sie betreffen Bewertung 
oder Ausgestaltung von Einzelfragen (Unterscheidung von Opposition und Kontrast; 
marginale Stellung der Intonation). Erwahnt sei jedoch, daB Martinets Biichlein sich 
durch eine undogmatische, elastische Grundhaltung auszeichnet, die auf Schematisie- 
rung verzichtet, um neuen Einsichten gegentiber anpassungsfahig zu bleiben. In for- 
maler Hinsicht ist die leserfreundliche Klarheit bemerkenswert. Der Text enthalt dabei 
gerade so viel Information, daB die Aufmerksamkeit des Lesers nicht abschweift. Ein 
sehr niitzlicher index terminologique (S. 221-223) sei besonders vermerkt. 

Der einzige stérende Druckfehler fand sich auf S. 103, wo es am Ende der letzten 
Zeile statt «d’unités discrrétes: /ku/» heiBen muB: «d’unités discrétes: /kur/». 

Dem deutschen Leser seien die «Eléments» besonders empfohlen. Wir wiinschen 
ihm sogar eine Ubersetzung davon. Westdeutschland ist eines der letzten Lander mit 
sprachwissenschaftlicher Tradition, in denen der Strukturalismus fast unbekannt ist. 
Von vielen Linguisten und Philologen wird er ignoriert oder abgelehnt. Die Diskussionen 
leiden bisher nicht nur an mangelndem gutem Willen, sondern auch an unzureichender 
Information. Ein unertraglicher Zustand: denn viele alte Fragen bediirfen einer neuen 
Antwort, und viele neue Fragen sind noch nicht einmal klar formuliert. In dieser Si- 
tuation kann Martinets realistisches und vielseitiges Buch jedem Unbefangenen eine 
Einfiihrung in die moderne Sprachwissenschaft geben und jenseits aller Polemik eine 
neue Gesprachsgrundlage sein. Georg Hincha, Ké\n 
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Standiger Internationaler Rat —- Permanent International Council 
Comité International Permanent 


Vom 4, bis 9. September 1961 hat in Helsinki der «Vierte Internationale KongreB 
fiir Phonetische Wissenschaften» stattgefunden. Der KongreBbericht erscheint im Verlag 
Mouton & Co., Den Haag. 

Wahrend des Kongresses fanden zwei Sitzungen des Standigen Internationalen 
Rats statt. 

1, Sitzung am 6. September, unter Vorsitz von E. <wirner, Miinster. Anwesend 
waren M. Cohen, Paris; B. Hdla, Praha; G. E. Peterson, Ann Arbor (Michigan); A. So- 
vyarvi, Helsinki; F. Trojan, Wien. 

Es wurden die bisherigen Mitglieder E. Blancquaert, Gent; M. P. Fouché, Paris; 
D. Jones, Gerrard’s Cross; L. Kaiser, Amsterdam; A. Sommerfelt, Oslo, zu Ehrenmitglie- 
dern ernannt. Der Standige Internationale Rat erweiterte sich durch Berufung von V1. A. 
Artemov, Moskva; P. Delattre, Boulder; G. Fant, Stockholm; D. B. Fry, London; R. Gsell, 
Grenoble; M. Halle, Cambridge (Mass.) ; M. Kloster Jensen, Bergen; B. Malmberg, Lund; 


Pe Moore, Chicago; I. Ochiai, Nagoya; W. Pée, Gent; A. Rigault, Montréal; A. Rosetti 
Bucuresti; G. Straka, Strasbourg. ; 
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Die Herren Hdla und Sovijarvi empfahlen die Wiedergriindung der «Internationalen 
Gesellschaft fiir Phonetik», die im Jahre 1938 aus der Berliner «Gesellschaft fiir Pho- 
netik» hervorgegangen war, sich aber infolge des Kriegsausbruches nicht offiziell 
konstituieren konnte. 

2. Sitzung am 8. September, unter Vorsitz von R. Jakobson, der sein Amt nieder- 
legte. Er und A. de Lacerda wurden zu Ehrenmitgliedern gewahlt. 

A. Sovijarvi berichtete tiber die gewahlten neuen Mitglieder. Der Standige Inter- 
nationale Rat setzt sich nunmehr folgendermaBen zusammen: 


Prasident: Professor D. B. Fry, London 
Vizeprasidenten: Professor B. Hdla, Praha; Professor M. Halle, Cambridge (Mass.) 
Generalsekretér: Professor R. Gsell, Grenoble 
Ehrenmitglieder: Professor E. Blancquaert, Gent; Professor M. P. Fouché, Paris; Professor 
R. Fakobson, Cambridge (Mass.); Professor D. Jones, Gerrard’s Cross; 
Professor L. Kaiser, Amsterdam; Professor A. de Lacerda, Coimbra; 
Professor A. Sommerfelt, Oslo 
Mitglieder: Professor V1. A. Artemov, Moskva; Professor S. K. Chatterji, Calcutta; 
Professor M. Cohen, Viroflay; Professor P. Delattre, Boulder; Professor G. Fant, Stock- 
holm; Professor E. Fischer-Jergensen, Kobenhavn; Dozent M. Kloster Jensen, Bergen; 
Professor B. Malmberg, Lund; Professor P. Moore, Chicago; Professor I. Ochiai, Nagoya; 
Professor W. Pée, Gent; Professor G. E. Peterson, Ann Arbor (Mich.) ; Professor A. Rigault, 
Montréal; Professor A. Rosetti, Bucuresti; Professor A. Sovijdrvi, Helsinki; Professor 
G. Straka, Strasbourg; Professor F. Trojan, Wien; Professor E. Zwirner, Miinster. 


Professor Zwirner wurde zum Prasidenten des 5. Internationalen Kongresses 1964 
gewahlt. 

Die Wahlen beider Sitzungen erfolgten einstimmig. 

Es wurde vorgeschlagen, B. Malmberg, Lund, als Prasidenten der neu zu griinden- 
den «Internationalen Gesellschaft fiir Phonetik» zu empfehlen und ihn zu bitten, sich 
seinen Generalsekretar selbst zu bestellen und die Griindung der Gesellschaft vorzu- 
bereiten. 

R. Jakobson riet zu einer Autonomie der «Gesellschaft» und des «Standigen Inter- 
nationalen Rats». Dem Vorschlag wurde zugestimmt. 

Es wurde beschlossen, das Protokoll der Sitzung in den «Phonetica» zu ver- 
offentlichen. E. &. 


Fourth International Congress of Phonetic Sciences 


The increasing importance of research in the phonetic sciences was effectively 
emphasized at the most recent Congress. The previous congresses were held in Amster- 
dam, London, and Ghent, in 1932, 1935, and 1938, respectively. The following is a brief 
report of the Fourth International Congress of Phonetic Sciences which was held in 
Helsinki, September 4-9, 1961. There were 240 scholars, representing 23 different 
countries. Most of the leading phoneticians from America and Europe attended the 
Congress. 

The Congress was organized into plenary session and section meetings. At the 
plenary sessions, invited papers were presented, primarily to survey research progress in 
phonetics since the previous congresses. Most of the papers presented at the section 
meetings were concerned with reports of specific research investigations. During the 
first day of the Congress the plenary session extended throughout most of the day, and 
on successive days it extended until noon, with section meetings following throughout 
the afternoon. 
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The plenary sessions on the first two days of the Congress were devoted to acoustic 
and physiological phonetics. On Wednesday the psychological aspects of phonetics were 
discussed, and the last two plenary sessions were devoted to phonetics and phonemics. 
Altogether, a total of 25 papers were planned for the plenary sessions, and with a few 
exceptions the papers were presented by the authors as listed in the program. 

A review of the section meetings shows a heavy emphasis upon physiological and 
acoustic phonetics. There were also a number of papers concerning the relation of 
phonetics to the psychological and linguistic aspects of language. Several scholars who 
had submitted papers for the section meetings were unable to attend, and as a result 
sessions were combined in some cases. As a whole, 72 papers were read. The many new 
ideas that were presented, and the general good attendance at the Congress contributed 
to much active discussion at the section meetings. The fine program of scientific and 
pedagogical films also should be noted. 

Phonetics was identified at the Congress as a scientific discipline basic to many 
areas, including speech pathology, foreign language teaching, experimental and theo- 
retical linguistics, and speech analysis and synthesis for technical communication 
purposes. Papers applying phonetics to all of these areas were presented, and those with 
a technical orientation appeared to be generally best received. Modern techniques and 
research areas were clearly in evidence, such as high speed laryngeal photography, 
X-ray laminagraphy and cinematography, subglottal pressure measurements, sound spec- 
trography, electrical vocal analogs, speech synthesis, and automatic speech recognition. 

In this brief report it would be impossible to enumerate the many specific contri- 
butions to phonetics and phonemics which were presented at the Congress. However, 
special note must be taken of the excellent presentations by the President of the Congress, 
the President of the Permanent Council, and by the new presidents who have now taken 
office. The four papers are as follows: 


Professor Antti Sovijdrvi, President of the Fourth International Congress 

R6éntgenkinematographisch-akustische Untersuchungen itiber die Artikulation der 
Diphthonge 

Professor Roman Jakobson, formerly President of the Permanent Council 

The Phonemic Concept of Distinctive Features 

Professor Eberhard Zwirner, President of the Fifth International Congress 

Beitrag zur Geographie der prosodischen Eigenschaften 

Professor Dennis B. Fry, now President of the Permanent Council 

Automatic Speech Recognition 


For those who came to the Congress from abroad, there were also rich cultural 
and social opportunities. There were receptions, visits to scientific institutes throughout 
Helsinki, and an afternoon excursion by boat to Porvoo. The day after the closing 
sessions of the Congress the members traveled to Turku, where the Cathedral, Abo 
Akademi, and Turku University were visited. A banquet had been arranged for the 
members of the Congress within the beautifully restored great hall of the Castle at Turku. 
It was at this banquet that several delegates to the Congress took the opportunity to 
express the appreciation of all of those who attended to Professor Antti Sovijadrvi, President, 
and Professor Pentti Aalto, Secretary of the Congress, for the excellent manner in which 
the entire meeting had been arranged and conducted. These men are indeed to be 
congratulated for having provided a unique opportunity for those interested in phonetics 
to meet together in the common purpose of developing an increased understanding of 
the scientific aspects of human communication. 

The Proceedings of the Fourth International Congress are now being prepared for 
publication. The Fifth International Congress is to be held in Bochum Germany 
in 1964, with Professor Eberhard Zwirner as President of the Congress. 


Gordon E. Peterson, Ann Arbor, Mich. 
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Der bekannte Autor des fiinfbandigen Werkes « Psychologie der Sprache» bietet in diesem 

~ Buch eine auf breitem zoologischem (ethologisch-6kologischem) Tatsachenfundament errich- 
tete Erorterung spezieller Probleme der Tierpsychologie und vergleichenden Verhaltensfor- 
schung, die in unseren Tagen wachsende Bedeutung gewonnen und damit zunehmendes 


Interesse gefunden haben. Auf der Basis der von den genannten Disziplinen gewonnenen Er- 
kenntnisse wird eine vielseitige Theorie der animalischen Kontaktprozeduren. entworfen und 
durch Folgerungen aus eigenen Beobachtungen und Experimenten erganzt. Ein besonderes 
Anliegen des Verfassers ist hierbei die Darstellung systematisch-prinzipieller Konsequenzen, die 
sich durch diese Forschungen vom Andersartigen und dem Kontrast her fiir die ia a des 
Menschen ergeben. 
| Der erste Teil des Werkes enthalt in methodischer Gliederung das vielfaltige biologische 
! ‘Tatsachenmaterial; der zweite Abschnitt bringt auf dem Weg wechselseitiger Erhellung sowohl 
die Eigenart der Tierkommunikation als auch die Wesensbesonderheit der Sprache iiberhaupt 
~ in neuer Sicht. Das Buch greift somit in den noch nicht entschiedenen «Kampf um die Tier- 
sprache» ein und bringt einen wesentlichen Beitrag zur Entscheidung dieser Auseinanderset- 
zung. Das Verfahren, mit dem dieser Versuch unternommen wird, ist das einer behutsam vor- 
gehenden Problemdiskussion, die jedes Fiir und Wider sorgsam abwagt und die zentralen Fra- | 
gen von verschiedenen Seiten aus und unter mannigfachen Einbettungsaspekten darlegt. 
SchlieBlich findet auch die tiersoziologische Problematik gebiihrende Beriicksichtigung, da 


im Zusammenhang tiersoziologischer Erérterungen vielfach Feststellungen getroffen werden, 
denen auch sprachtheoretische Bedeutung zukommt, 
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